Hive学习笔记(三)

分区和桶:

hive把表组织成分区,这是一种根据分区列的值进行粗略划分的机制。使用分区可以加快数据分片的查询速度。

表或分区可以进一步划分为桶,它会为数据提供额外的数据结构从而获得更高效的查询处理。比如:根据用户ID来划分桶,我们可以在所有用户集合的随机样本上快速计算基于用户的查询。

分区:

分区是在创建表时用PARTITIONED BY子句进行定义。该子句需要定义列的列表。

create table logs(ts String,line String )
PARTITIONED BY(dt String,country String);

数据加载到分区表时,要显示指定分区值

load data local inpath ‘input/hive/partitions/file1‘
into  table logs
partition (dt=‘20150824‘,country=‘CN‘) ;

表后可以使用alter table 来增加和删除分区。

如何知道表中有哪些分区

show partitions  logs;

在select语句中,以普通方式使用分区列,hive对输入进行裁剪,只扫描相关的分区。

select ts,dt,line from logs   where  country=‘GB‘;  

返回dt分区列的值,这个值从目录中读取,因为它们在数据文件中不存在。

桶:

hive如何划分桶?

使用 CLUSTERED BY 子句来划分桶所用的列和要划分桶的个数:

create table b_user (id int ,name String)
CLUSTERED BY (id) into  4 buckets;

桶中的数据根据一个或多个列进行排序,每个桶连接变成了高效的合并排序,提升了map连接的效率:

create table b_user(id int,name string)
CLUSTRED  BY  (id) SORTED BY (id ASC) INTO 4   BUCKETS;

这样hive并不检查数据文件中的桶和表定义中的桶是否一致。两者不一致,只有在查询时才能发现错误和未定义的结果。

要向分桶表中填充成员,需要将hive.enforce.bucketing属性设置为 true,这样hive知道用表定义的数量来创建桶。

insert overwrite  table b_user
select * from users;

每个桶就是表(或分区)目录里的一个文件,一个作业产生的桶 和reduce 任务个数相同。

可以用TABLESAMPLE子句对表进行取样,这个子句会查询限定在一部分桶内而不是使用整个表。

select * from b_user
TABLESAMPLE(BUCKET 1 out of 4 ON id );

这样的查询会返回一半的桶:

select * from b_user
TABLESAMPLE(BUCKET 1 out of 2 ON id );

取样分桶表是非常高效的操作,查询只需读取和TABLESAMPLE子句匹配的桶 。使用rand()函数对没有划分成桶的表进行取样,即使只需要读取很小一部分样本,也要扫描整个输入数据集。

select  *  from users
TABLESAMPLE (BUCKET 1 out of 4 on rand());

小结:

分区是是对分区列的值进行粗略划分的机制,可以加快查询速度。桶的划分是在表或者分区的基础上,可以提供更高效的查询处理。学习分区和桶的定义,理解它们的机制。

版权声明:本文为博主原创文章,未经博主允许不得转载。

时间: 2024-10-11 21:38:00

Hive学习笔记(三)的相关文章

Caliburn.Micro学习笔记(三)----事件聚合IEventAggregator和 Ihandle<T>

Caliburn.Micro学习笔记(三)----事件聚合IEventAggregator和 Ihandle<T> 今天 说一下Caliburn.Micro的IEventAggregator和IHandle<T>分成两篇去讲这一篇写一个简单的例子 看一它的的实现和源码 下一篇用它们做一个多语言的demo 这两个是事件的订阅和广播,很强大,但用的时候要小心发生不必要的冲突. 先看一下它的实现思想 在Caliburn.Micro里EventAggregator要以单例的形式出现这样可以

OpenCV for Python 学习笔记 三

给源图像增加边界 cv2.copyMakeBorder(src,top, bottom, left, right ,borderType,value) src:源图像 top,bottem,left,right: 分别表示四个方向上边界的长度 borderType: 边界的类型 有以下几种: BORDER_REFLICATE # 直接用边界的颜色填充, aaaaaa | abcdefg | gggg BORDER_REFLECT # 倒映,abcdefg | gfedcbamn | nmabcd

NFC学习笔记——三(在windows操作系统上安装libnfc)

本篇翻译文章: 这篇文章主要是说明如何在windows操作系统上安装.配置和使用libnfc. 一.基本信息 1.操作系统: Windows Vista Home Premium SP 2 2.硬件信息: System: Dell Inspiron 1720 Processor: Intel Core 2 Duo CPU T9300 @ 2.5GHz 2.5GHz System type: 32-bit Operating System 3.所需软件: 在windows操作系统上安装软件需要下列

swift学习笔记(三)关于拷贝和引用

在swift提供的基本数据类型中,包括Int ,Float,Double,String,Enumeration,Structure,Dictionary都属于值拷贝类型. 闭包和函数同属引用类型 捕获则为拷贝.捕获即定义这些常量和变量的原作用域已不存在,闭包仍然可以在闭包函数体内引用和修改这些值 class属于引用类型. Array的情况稍微复杂一些,下面主要对集合类型进行分析: 一.关于Dictionary:无论何时将一个字典实例赋给一个常量,或者传递给一个函数方法时,在赋值或调用发生时,都会

加壳学习笔记(三)-简单的脱壳思路&amp;调试思路

首先一些windows的常用API: GetWindowTextA:以ASCII的形式的输入框 GetWindowTextW:以Unicaode宽字符的输入框 GetDlgItemTextA:以ASCII的形式的输入框 GetDlgItemTextW:以Unicaode宽字符的输入框 这些函数在使用的时候会有些参数提前入栈,如这函数要求的参数是字符串数目.还有大小写啦之类的东西,这些东西是要在调用该函数之前入栈,也就是依次push,就是说一般前面几个push接着一个call,那前面的push可能

【Unity 3D】学习笔记三十四:游戏元素——常用编辑器组件

常用编辑器组件 unity的特色之一就是编辑器可视化,很多常用的功能都可以在编辑器中完成.常用的编辑器可分为两种:原有组件和拓展组件.原有组件是编辑器原生的一些功能,拓展组件是编辑器智商通过脚本拓展的新功能. 摄像机 摄像机是unity最为核心组件之一,游戏界面中显示的一切内容都得需要摄像机来照射才能显示.摄像机组件的参数如下: clear flags:背景显示内容,默认的是skybox.前提是必须在render settings 中设置天空盒子材质. background:背景显示颜色,如果没

马哥学习笔记三十二——计算机及操作系统原理

缓存方式: 直接映射 N路关联 缓存策略: write through:通写 write back:回写 进程类别: 交互式进程(IO密集型) 批处理进程(CPU密集型) 实时进程(Real-time) CPU: 时间片长,优先级低IO:时间片短,优先级高 Linux优先级:priority 实时优先级: 1-99,数字越小,优先级越低 静态优先级:100-139,数据越小,优先级越高 实时优先级比静态优先级高 nice值:调整静态优先级   -20,19:100,139   0:120 ps

lucene学习笔记(三)

好几天没更新了.更新一下,方便自己和大家学习. 这是最基本的代码 package index; import java.io.File; import java.io.IOException; import java.util.HashMap; import java.util.Map; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Document;

python 学习笔记 三 字典

字典 Python的高效的key/value哈希表结构叫做"dict", dict的内容可以写成一系列的key:value对并放入{ }中, 相当于: dict = {key1:value1, key2:value2, ...}, 一个空的字典就是俩个大括号{ }. 下面是从一个空字典创建字典以及一些关键点: 数字, 字符串和元组可以作为字典的key, value可以是任何类型(包括字典). ## Can build up a dict by starting with the the

3. 蛤蟆Python脚本学习笔记三字符串

3. 蛤蟆Python脚本学习笔记三字符串 本篇名言:"平静的湖面只有呆板的倒映,奔腾的激流才有美丽的浪花!幸福不是靠别人来布施,而是要自己去赢取!生命的意义在不断挑战自己,战胜自己!" 这个本来放在昨天的,由于昨晚又太晚了,所以就搁在这里了.赶紧看看吧. 字符串两边都用双引号或者单引号包起来.否则就使用转移符号来转移一下. 输入在一起可以直接拼接. 欢迎转载,转载请标明出处:http://blog.csdn.net/notbaron/article/details/48112507