12、Hive核心概念与原理详解

关注VX:数据科学讲堂,领取教程

1、 Hive核心概念和架构原理

1.1、 Hive概念

Hive由FaceBook开发,用于解决海量结构化日志的数据统计。

Hive是基于Hadoop的数据仓库工具,可以将结构化数据映射为一张表,提供类似SQL语句查询功能

本质:将Hive SQL转化成MapReduce程序。

1.2、Hive与数据库的区别

对变项 Hive 数据库软件
查询语言 HQL SQL
数据存储 HDFS Raw Devce or Loal FS
执行器 MapReduce Executor
数据插入 支持批量导入/单条插入 支持单条或者批量导入
数据操作 覆盖追加 行级更新删除
处理数据规模
执行延迟
分区 支持 支持
索引 0.8版本之后加入了索引 支持复杂的索引
扩展性 有限
数据加载模式 读时模式(快) 写时模式(慢)
应用场景 海量数据查询 实时查询

读时模式:Hive在加载数据到表中的时候不会校验.

写时模式:Mysql数据库插入数据到表的时候会进行校验.

总结:Hive只适合用来做海量离线的数据统计分析,也就是数据仓库。

1.3、Hive的优缺点

优点:操作接口采用了类SQL语法,提供快速开发的能力,避免了去写MapReduce;Hive还支持用户自定义函数,用户可以根据自己的需求实现自己的函数。

缺点:Hive不支持纪录级别的增删改操作;Hive查询延迟很严重;Hive不支持事务。

1.4、Hive架构原理


? (1)用户接口:CLI(hive shell);JDBC(java访问Hive);WEBUI(浏览器访问Hive)
? (2)元数据:MetaStore
元数据包括:表名、表所属的数据库(默认是default)、表的拥有者、列/分区字段,标的类型(表是否为外部表)、表的数据所在目录。这是数据默认存储在Hive自带的derby数据库中,推荐使用MySQL数据库存储MetaStore。
(3)Hadoop集群:
使用HDFS进行存储数据,使用MapReduce进行计算。
(4)Driver:驱动器:
解析器(SQL Parser):将SQL字符串换成抽象语法树AST,对AST进行语法分析,像是表是否存在、字段是否存在、SQL语义是否有误。
编译器(Physical Plan):将AST编译成逻辑执行计划。
优化器(Query Optimizer):将逻辑计划进行优化。
执行器(Execution):把执行计划转换成可以运行的物理计划。对于Hive来说默认就是Mapreduce任务。
通过Hive**对数据进行数据分析过程**:

2、 Hive交互方式

需要先启动hadoop集群和MySQL服务

2.1、Hive交互shell

cd  /opt/bigdata2.7/hive (hive的安装路径,根据自己实际情况改变)
bin/hive


? 可以在命令端口写上HQL语句:show databases;验证是否可用。

2.2、JDBC交互

输入hiveserver2相当于开启了一个服务端,查看hivesever2的转态

输入netstat  –nlp命令查看:


?运行hiveserver2相当于开启了一个服务端,端口号10000,需要开启一个客户端进行通信,所以打开另一个窗口,输入命令beeline.,Beeline连接方式:!connect jdbc:hive2://node1:10000,主意不要省略!

当然了hiveserver2服务端可以运行在后台:

nohup hiveserver2 &

3、 Hive数据类型

3.1基本数据类型

类型名称 描述 举例
boolean True/false True
tinyint 1字节的有符号整数 1
Smallint 2字节的有符号整数 1
int 4字节的有符号整数 1
Bigint 8字节的有符号整数 1
Float 4字节精度浮点数 1.0
Double 8字节精度浮点数 1.0
String 字符串(不设长度) “adcadfaf”
Varchar 字符串(1-65355) “adfafdafaf”
Timestamp 时间戳 123454566
date 日期 20160202

3.2复合数据类型

类型名称 描述 举例
Array 一组有序的字段,字段类型必须相同的array(元素1,元素2) Array(1,2,4)
Map 一组无序的键值对map(k1,v1,k2,v2) Map(‘a’,1,’b’,2)
Struct 一组命名的字段,字段类型可以不同struct(元素1,元素2) Struct(‘a’,1,2,0)

? (1)Array字段的元素访问方式:下标获取元素,下标从0开始

比如:获取第一元素:array[0]

(2)Map字段的访问方式:通过键获取值

比如:获取a这个key对应的value:map[‘a’]

(3)struct字段的元素获取方式:

定义一个字段c的类型为struct(a int;b string)

获取a和b的值:

create table complex(
     col1 array<int>,
     col2 map<string,int>,
     col3 struct<a:string,b:int,c:double>
     )

4、 Hive数据类型转换

4.1、隐式类型转换

? 系统自动实现类型转换,不需要客户干预

如:tinyint可以转换成int,int可以转成bigint

所有整数类型、float、string类型都可以隐式转转换成double

tinyint、samllint、int都可以转成float

boolean不可以转成其他任何类型

4.2、手动类型转换

? 可以使用cast函数显示的进行数据类型转换

? 例如:cast(‘1’ as int)把字符串’1’转成整数1

所有整数类型、float、string类型都可以隐式转转换成double

tinyint、samllint、int都可以转成float

boolean不可以转成其他任何类型

4.2、手动类型转换

? 可以使用cast函数显示的进行数据类型转换

? 例如:cast(‘1’ as int)把字符串’1’转成整数1

? 如果强制转换类型失败,如执行cast(‘x’ as int)表达式返回NULL。

原文地址:https://blog.51cto.com/10312890/2468492

时间: 2024-10-08 14:02:36

12、Hive核心概念与原理详解的相关文章

002/区块链核心概念与原理详解(Mooc)

视频地址:https://www.imooc.com/learn/988 1.课程介绍 (一).区块链前世今生 密码朋克--神秘组织(邮件组) 2.区块链核心概念与原理 (一)比特币是数字货币 为什么叫区块链? 因为比特币系统里面的数据是一个个的区块来存储,并且通过hash方式将一个个区块链接起来.这样就形成了一个区块的链条叫区块链. 什么是比特币? 一串数字可以用于货币交换叫数字货币或虚拟货币--比特币 比特币就是一个虚拟货币,它的价值来源于大家的信任.在区块链中通常称为共识.(大家认为它有价

Storm概念、原理详解及其应用(一)BaseStorm

本文借鉴官文,添加了一些解释和看法,其中有些理解,写的比较粗糙,有问题的地方希望大家指出.写这篇文章,是想把一些官文和资料中基础.重点拿出来,能总结出便于大家理解的话语.与大多数"wordcount"代码不同的是,并不会有如何运行第一storm代码等内容,只有在运行完代码后,发现需要明白:"知其然,并知其所以然". Storm是什么?为什么要用Storm?为什么不用Spark? 第一个问题,以下概念足以解释: Storm是基于数据流的实时处理系统,提供了大吞吐量的实

14、Hive压缩、存储原理详解与实战

1.Hive 压缩 1.1数据压缩说明 压缩模式评价: (1)压缩比 (2)压缩时间 (3)已经压缩的是否可以再分割:可以分割的格式允许单一文件有多个Mapper程序处理,才可以更好的并行化. Hadoop编码/解码器方式: 1.2数据压缩使用 压缩模式评价 可使用以下三种标准对压缩方式进行评价 1.压缩比:压缩比越高,压缩后文件越小,所以压缩比越高越好 2.压缩时间:越快越好 3.已经压缩的格式文件是否可以再分割:可以分割的格式允许单一文件由多个Mapper程序处理,可以更好的并行化 常见压缩

android 屏幕适配攻略(1) 核心概念与单位详解

什么叫碎片化? 通俗的讲亦是指整个安卓平台的差异化越来越大,  任何成功的智能操作系统都是由庞大的软件资源支撑起来的,这要求系统和硬件有一定的一致性, 这才能确保软件的兼容性,而个人和团体开发的第三方软件也有一定的规范,以确保软件和设备 完全兼容.而由于Android完全免费以及完全开源的性质,最终导致Android设备的软件兼容性 变差,间接加大了软件开发的难度(主要难度是让软件在更多的设备上运行),最终会导致一个结 果:由于开发难度高,开发成本增大,软件开发商和软件开发者们会放弃开发.最终A

JAVA消息服务JMS规范及原理详解

一.简介 JMS即Java消息服务(Java Message Service)应用程序接口,是一个Java平台中关于面向消息中间件(MOM)的API,用于在两个应用程序之间,或分布式系统中发送消息,进行异步通信.Java消息服务是一个与具体平台无关的API,绝大多数MOM提供商都对JMS提供支持. JMS允许应用程序组件基于JavaEE平台创建.发送.接收和读取消息.它使分布式通信耦合度更低,消息服务更加可靠以及异步性. 二.常用术语介绍 在提到JMS时,我们通常会说到一些术语,解释如下: 消息

Redis实战和核心原理详解(5)使用Spring Session和Redis解决分布式Session跨域共享问题

Redis实战和核心原理详解(6)使用Spring Session和Redis解决分布式Session跨域共享问题 前言 对于分布式使用Nginx+Tomcat实现负载均衡,最常用的均衡算法有IP_Hash.轮训.根据权重.随机等.不管对于哪一种负载均衡算法,由于Nginx对不同的请求分发到某一个Tomcat,Tomcat在运行的时候分别是不同的容器里,因此会出现session不同步或者丢失的问题. 实际上实现Session共享的方案很多,其中一种常用的就是使用Tomcat.Jetty等服务器提

理解泛函的概念(图像处理中的数学原理详解)

全文目录请见 图像处理中的数学原理详解(Part1 总纲) http://blog.csdn.net/baimafujinji/article/details/48467225 2.4  从泛函到变分法 作为数学分析的一个分支,变分法(Calculus of Variations)在物理学.经济学以及信息技术等诸多领域都有着广泛而重要的应用.变分法是研究依赖于某些未知函数的积分型泛函极值的普遍方法.换句话说,求泛函极值的方法就称为是变分法. 2.4.1  理解泛函的概念 变分法是现代泛函分析理论

SpringBoot启动机制(starter机制)核心原理详解

作者:MyBug 一.前言 使用过springboot的同学应该已经知道,springboot通过默认配置了很多框架的使用方式帮我们大大简化了项目初始搭建以及开发过程.本文的目的就是一步步分析springboot的启动过程,这次主要是分析springboot特性自动装配.那么首先带领大家回顾一下以往我们的web项目是如何搭建的,通常我们要搭建一个基于Spring的Web应用,我们需要做以下一些工作:pom文件中引入相关jar包,包括spring.springmvc.redis.mybaits.l

[转] VLAN原理详解

VLAN原理详解 标签: VLANAccess-LinkTrunk-Link802.1QISL 2013-07-26 18:05 27901人阅读 评论(15) 收藏 举报  分类: 网络通信/流媒体(30)  目录(?)[+] 1.为什么需要VLAN 1.1 什么是VLAN? VLAN(Virtual LAN),翻译成中文是“虚拟局域网”.LAN可以是由少数几台家用计算机构成的网络,也可以是数以百计的计算机构成的企业网络.VLAN所指的LAN特指使用路由器分割的网络——也就是广播域. 在此让我