Hive-1-Hive介绍和工作原理

1、 什么是Hive

 

hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。

2、 Hive的工作流程图

 

3、 使用场景

 

Hive 并不适合那些需要低延迟的应用;

Hive 的最佳使用场合是大数据集的批处理作业,例如,网络日志分析。

4、 Hive数据类型

 

提供基本类型和复杂数据类型

5、 Hive与关系数据库的比较

 

5.1、查询语言:

HiveQL

5.2、数据存储:

HDFS中

5.3、数据格式:

没有定义专门的数据格式,由用户指定,用户定义数据格式需要指定三个属性:列分隔符、行分隔符以及读取数据的方法(TextFiile\SequenceFile\RCFile)

5.4、不支持对数据的改写和添加

5.5、执行:

通过MapReduce实现(select * from table 的查询不需要MapReduce)

5.6、执行延迟:

由于需要扫描整个表,MapReduce框架本身延迟较高,所以为高延迟

5.7、可扩展性:

由于Hive的数据存储在HDFS上,所以扩展性好,和HDFS扩展性一致

5.8、数据规模:

支持大规模数据

时间: 2024-08-06 01:05:27

Hive-1-Hive介绍和工作原理的相关文章

LVS介绍及工作原理图解

很多人使用过LVS集群系统,但对于LVS集群,大多数人不清楚它到底是个什么东西.接下来我们就聊聊LVS及其工作原理. 一.lvs介绍 LVS的英文全名为"Linux Virtual Server",即Linux虚拟服务器,是一个虚拟的四层交换器集群系统,根据目标地址和目标端口实现用户请求转发,本身不产生流量,只做用户请求转发,目前是负载均衡性能最好的集群系统. 二.Lvs原理介绍 图示如下: 1.首先用户向负载均衡器调度器(Director Server)发起请求,负载均衡器将请求发往

SharePoint Client Object Model API 介绍以及工作原理解析

COM和ServerAPI 的对比 SharePoint从2010开始引入了Client Object Model的API(后文中用COM来代替),从名字来看,我们可以简单的看出,该API是面向客户端的应用程序的.有这个这套API,使得所有SharePoint的终端用户 可以开发自己的应用程序来访问,修改SharePoint.下面的列表简述了COM和Server API的区别:   COM Server 运行端 可以在任何能够访问SharePoint的机器上运行 可以再浏览器上,.Net应用程序

keepalived介绍及工作原理

keepalived介绍keepalived观察其名可知,保持存活,在网络里面就是保持在线了,也就是所谓的高可用或热备,它集群管理中保证集群高可用的一个服务软件,其功能类似于heartbeat,用来防止单点故障(单点故障是指一旦某一点出现故障就会导致整个系统架构的不可用)的发生.说到keepalived就不得不说VRRP协议,可以说这个协议就是keepalived实现的基础,那么首先我们来看看VRRP协议. VRRP协议介绍学过网络的朋友都知道,网络在设计的时候必须考虑到冗余容灾,包括线路冗余,

JAVA知识积累 JSP第一篇【JSP介绍、工作原理、生命周期、语法、指令、行为】

JSP全名为Java Server Pages,java服务器页面.JSP是一种基于文本的程序,其特点就是HTML和Java代码共同存在! 为什么需要JSP JSP是为了简化Servlet的工作出现的替代品,Servlet输出HTML非常困难,JSP就是替代Servlet输出HTML的. 简单使用一下JSP 在idea下生成一个JSP,我们来看一下JSP长什么样子 <%@ page contentType="text/html;charset=UTF-8" language=&q

Docker Macvlan 介绍与工作原理

Docker Macvlan Network Macvlan Network:属于Docker的网络驱动. Macvlan Network:Docker主机网卡接口逻辑上分为多个子接口,每个子接口标识一个VLAN.容器接口直接连接Docker主机网卡接口,通过路由策略转发到另一台Docker主机. 工作原理解析 1.两边节点分别创建macvlan网络,并创建子网段. 2.docker0网卡会通过NET去访问外网. 3.容器内的eth0是由macvlan所在物理接口ens33创建的一个逻辑网口.

Docker Weave 介绍 or 工作原理

Docker Weave Network Weave在Docker主机之间实现Overlay网络,使用业界标准VXLAN封装,基于UDP传输,也可以加密传输. Weave Net创建一个连接多个Docker主机的虚拟网络,类似于一个以太网交换机,所有的容器都连接到这上面,互相通信. Weave Net由多个peer组成,Weave路由器运行不同Docker主机上,是一个用户空间的进程:每个peer都有一个名称,重启保持不变.它们通过TCP连接彼此,建立后交换拓扑信息. Weave Net可以在具

Vlan与VTP的介绍及工作原理

VLAN 一个VLAN =一个广播域 = 逻辑网段 (子网) 每个逻辑的VLAN就象一个独立的物理桥 交换机上的每一个端口都可以分配给不同的VLAN 默认的情况下,所有的端口都属于VLAN1(Cisco) 每个逻辑的VLAN就象一个独立的物理桥 同一个VLAN可以跨越多个交换机 主干功能支持多个VLAN的数据 主干使用了特殊的封装格式支持不同的VLAN 只有快速以太网端口可以配置为主干端口 交换机对帧进行VLAN标记有两种协议:ISL和802.1Q ISL的主干功能使得VLAN信息可以穿越主干线

第四十八课 zabbix工作原理、安装、配置入门

监控系统基础及zabbix介绍 zabbix工作原理及安装配置 zabbix配置入门 zabbix配置入门 一.监控系统基础及zabbix介绍 著名的监控工具 zabbix zennos opennms cacti nagios. cacti 收集数据.展示图表 nagios 关注状态 报警机制强 zabbix 强大的监控工具能完成数据采集.存储.展示.报警功能. zabbix 有专用的agent的监控工具,他是一个分布式的监控系统. 二.zabbix的安装(zabbix-2.4为例) 1.rp

词向量( Distributed Representation)工作原理是什么

原文:http://www.zhihu.com/question/21714667 4 个回答 83赞同反对,不会显示你的姓名 皮果提 刘鑫.莫教授要养猫.Starling Niohuru 等人赞同 要将自然语言交给机器学习中的算法来处理,通常需要首先将语言数学化,词向量就是用来将语言中的词进行数学化的一种方式. 一种最简单的词向量方式是 one-hot representation,就是用一个很长的向量来表示一个词,向量的长度为词典的大小,向量的分量只有一个 1,其他全为 0, 1 的位置对应