Hive之分区以及bucket分桶认识理解

1. 桶的概念：

对于每一个表（table）或者分区， Hive可以进一步组织成桶(没有分区能分桶吗？)，
也就是说桶是更为细粒度的数据范围划分。Hive也是针对某一列进行桶的组织。Hive采用
对列值哈希，然后除以桶的个数求余的方式决定该条记录存放在哪个桶当中。
把表（或者分区）组织成桶（Bucket）有两个理由：
(1)、获得更高的查询处理效率。桶为表加上了额外的结构，Hive 在处理有些查询时能利用
这个结构。具体而言，连接两个在（包含连接列的）相同列上划分了桶的表，可以使用
Map 端连接（Map-side join）高效的实现。比如JOIN操作。对于JOIN操作两个表有一个
相同的列，如果对这两个表都进行了桶操作。那么将保存相同列值的桶进行JOIN操作就可
以，可以大大较少JOIN的数据量。
(2)、使取样（sampling）更高效。在处理大规模数据集时，在开发和修改查询的阶段，
如果能在数据集的一小部分数据上试运行查询，会带来很多方便。

(3)、强制多个 reduce 进行输出：
插入数据前需设置，不设置将会只有一个文件：
set hive.enforce.bucketing = true
要向分桶表中填充数据，需要将 hive.enforce.bucketing 属性设置为 true。
这样，Hive 就知道用表定义中声明的数量来创建桶。然后使用 INSERT 命令即可。
需要注意的是： clustered by和sorted by不会影响数据的导入，这意味着，用户必须自己负责数据如何如何导入，包括数据的分桶和排序。
‘set hive.enforce.bucketing = true‘ 可以自动控制上一轮reduce的数量从而适配bucket的个数，
当然，用户也可以自主设置mapred.reduce.tasks去适配bucket个数，推荐使用‘set hive.enforce.bucketing = true‘

原文地址：https://www.cnblogs.com/bloglintao/p/9197976.html

时间： 2024-10-10 21:18:49

Hive之分区以及bucket分桶认识理解的相关文章

Hive SQL之分区表与分桶表

Hive sql是Hive 用户使用Hive的主要工具.Hive SQL是类似于ANSI SQL标准的SQL语言,但是两者有不完全相同.Hive SQL和Mysql的SQL方言最为接近,但是两者之间也存在着显著的差异,比如Hive不支持行级数据的插入.更新和删除,也不支持事务操作. 注: HIVE 2.*版本之后开始支持事务功能,以及对单条数据的插入更新等操作 Hive的相关概念 Hive数据库 Hive中的数据库从本质上来说仅仅就是一个目录或者命名空间,但是对于具有很多用户和组的集群来说,这个

Hive 教程(四)-分区表与分桶表

在 hive 中分区表是很常用的,分桶表可能没那么常用,本文主讲分区表. 概念分区表在 hive 中,表是可以分区的,hive 表的每个区其实是对应 hdfs 上的一个文件夹: 可以通过多层文件夹的方式创建多层分区: 通过文件夹把数据分开分桶表分桶表中的每个桶对应 hdfs 上的一个文件: 通过文件把数据分开在查询时可以通过 where 指定分区(分桶),提高查询效率分区表基本操作 1. 创建分区表 partitoned by 指定分区,后面加分区字段和分区字段类型,可以加多个

Hive里的分区和分桶再谈

分桶是细粒度的,分桶是不同的文件. 分区是粗粒度的,即相当于,表下建立文件夹.分区是不同的文件夹. 桶在对指定列进行哈希计算时,会根据哈希值切分数据,使每个桶对应一个文件. 里面的id是哈希值,分过来的. 分桶,一般用作数据倾斜和数据抽样方面.由此,可看出是细粒度. Hive 中创建分区表没有什么复杂的分区类型(范围分区.列表分区.hash 分区,混合分区等).分区列也不是表中的一个实际的字段,而是一个或者多个伪列.意思是说,在表的数据文件中实际并不保存分区列的信息与数据. 注意:普通表(外部

Hive表的分区与分桶

1.Hive分区表 Hive使用select语句进行查询的时候一般会扫描整个表内容,会消耗很多时间做没必要的工作.Hive可以在创建表的时候指定分区空间,这样在做查询的时候就可以很好的提高查询的效率. 创建分区表的语法: [java] view plain copy create table tablename( name string )partitioned by(key,type...); 示例 [java] view plain copy drop table if exists emp

HIVE—索引、分区和分桶的区别

一.索引简介 Hive支持索引,但是Hive的索引与关系型数据库中的索引并不相同,比如,Hive不支持主键或者外键. Hive索引可以建立在表中的某些列上,以提升一些操作的效率,例如减少MapReduce任务中需要读取的数据块的数量. 为什么要创建索引? Hive的索引目的是提高Hive表指定列的查询速度.没有索引时,类似'WHERE tab1.col1 = 10' 的查询,Hive会加载整张表或分区,然后处理所有的rows,但是如果在字段col1上面存在索引时,那么只会加载和处理文件的一部分

Hive中的分桶

对于每一个表(table)或者分区, Hive可以进一步组织成桶,也就是说桶是更为细粒度的数据范围划分.Hive也是针对某一列进行桶的组织.Hive采用对列值哈希,然后除以桶的个数求余的方式决定该条记录存放在哪个桶当中. 把表(或者分区)组织成桶(Bucket)有两个理由: (1)获得更高的查询处理效率.桶为表加上了额外的结构,Hive 在处理有些查询时能利用这个结构.具体而言,连接两个在(包含连接列的)相同列上划分了桶的表,可以使用 Map 端连接 (Map-side join)高效的实现.比

Hive之分区（Partitions）和桶（Buckets）

转自:http://www.aahyhaa.com/archives/316 hive引入partition和bucket的概念,中文翻译分别为分区和桶(我觉的不是很合适,但是网上基本都是这么翻译,暂时用这个吧),这两个概念都是把数据划分成块,分区是粗粒度的划分桶是细粒度的划分,这样做为了可以让查询发生在小范围的数据上以提高效率. 首先介绍分区的概念,还是先来个例子看下如果创建分区表:[code lang=”sql”]create table logs_partition(ts bigint,l

Hive分区表与分桶

分区表在Hive Select查询中,一般会扫描整个表内容,会消耗很多时间做没必要的工作. 分区表指的是在创建表时,指定partition的分区空间. 分区语法 create table tablename name string ) partitioned by(key type,-) create table if not exists employees( name string, salary string, subordinates array<string>, deduction

大数据--hive分桶查询&&压缩方式

一.分桶及抽样查询 1.分桶表创建 --------------------------------------- hive (db_test)> create table stu_buck(id int,name string) > clustered by(id) > into 4 buckets > row format delimited fields terminated by '\t';OKTime taken: 0.369 seconds --------------

猜你喜欢

学习elasticsearch(一)linux环境搭建(2）——启动elasticsearch

在启动访问es的过程中遇到了各种的奇葩问题. 1.网上各种版本的启动方式让人眼花缭乱不知如何启动.简单粗暴--到es的bin目录下直接执行 ./elasticsearch //显示启动,ctrl+c ...

栈基本操作（顺序栈）

#include<iostream> #include<cstdlib> using namespace std; //定义初始化长度和每次增加的长度 const int ST ...

step 2 NSURLConnection

NSURLConnection 步骤 NSURL:确定要访问的资源 NSURLRequest:根据 URL 建立请求,向服务器索要数据 NSURLConnection:建立网络连接,将请求(异步)发送 ...

minicom的安装及配置

1. sudo apt-get install minicom 2. 配置 (1). sudo minicom –s (2). (3). 按“A”配置设备,再按回车保存.按”F”,把留空改为NO.回车 ...

jquery属性操作

获取属性获取属性我们需要使用attr( )方法,在使用attr( )方法的时候需要给它传递一个参数,即属性名称. var $para = $("p"); //获取<p> ...

第一个控制台应用程序实例

1 #include <stdio.h> 2 #include <stdlib.h> 3 #include <conio.h> 4 5 int main(int a ...

java 学习中遇到的问题（一）方法调用中的值传递和引用传递

值传递:方法调用时,实际参数把它的值传递给对应的形式参数,方法执行中形式参数值的改变不影响实际参数的值.引用传递:也称为传地址.方法调用时,实际参数的引用(地址,而不是参数的值)被传递给方法中相对应 ...

黑客入门视频教程

黑客入门视频教程 01 ping命令的使用http://images.enet.com.cn/eschool/wmv/ping.wmv02 netstat命令的使用 http://images.ene ...

Linux内核中几个比较有意思的解释(进程调度算法，页面调度算法，非线性工作集)

1.O(1)调度器的时间计算公式与CFS调度器 Linux 2.6.23之前普遍采用了O(1)调度器,它是一种基于优先级的时间片调度算法,所谓的O(1)只是它的一些精巧的数据结构使然,在不考虑动态补偿 ...

Java知多少（96）绘图之设置字型和颜色

Java绘图中,显示文字的方法主要有三种:(1)drawString(String str,int x,int y):在指定的位置显示字符串.(2)drawChars(char data[],int ...

h3c交换机配置命令

1.修改名称 sysname 名称 2.进入aaa模式 [5F/L01]aaa # aaa authentication-scheme default authorization-scheme def ...

寻找兄弟字符串

/* 如果两个字符串的字符一样,但是顺序不一样,被认为是兄弟字符串, 问如何在迅速匹配兄弟字符串(如,bad和adb就是兄弟字符串). */ #include <iostream> #in ...

java入门实现转换

设计思想首先不用多说就是建立最基础的java创建,然后抛出一个异常处理来替我们检测用户的输入,这一点十分重要.然后就要进行输入工作,不必多说,网上的教程有一个Scanner的输入方法,我们引入一下. ...

光纤的分类和标准

单模光纤和多模光纤单模光纤和多模光纤是最常见的分类方式.单模光纤是***的,多模光纤则是橙色的. 单模光纤一般分为:常规单模光纤和色散位移光纤. 常见的多模光纤有3种:OM1,OM2和OM3.ITU ...

4.标准体重：男士体重=身高-100±3 女士体重=身高-110±3 输入性别、身高、体重，查看体重是否标准

<script> a=prompt("请输入性别","") b=prompt("请输入身高","") c=p ...

Qt之QAbstractItemView右键菜单

一.功能概述说起右键菜单,之前Qt之自定义QLineEdit右键菜单这篇文章中我已经讲述过3种右键菜单的实现方式,今儿也是在啰嗦一下,针对QListWidget类在定制一下右键菜单,我使用的具体方式 ...

mysql主主复制（双主复制）配置步骤

以前我们介绍的都是主从复制,这里给各位介绍一个双主复制了,下面都希望两个主服务器数据自动复制的话可参考一下此文章. MySQL主主复制结构区别于主从复制结构.在主主复制结构中,两台服务器的任何一台上面 ...

执行Git命令时出现各种 SSL certificate problem 的解决办法

比如我在windows下用git clone gitURL 就提示 SSL certificate problem: self signed certificate 这种问题,在windows下出现 ...

Eclipse设置------输入sysout 按Alt+/ 后System.out.println();不显示

需要查看并设置快捷键打开Windows->Preferencecs 对话框查看Jave->Editor->Templates 快捷键是否冲突General->Keys中的W ...

1.写出方法获取ios内存使用情况.// 获取当前设备可用内存及所占内存的头文件 #import <sys/sysctl.h> #import <mach/mach.h> // ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.021 s.