Hive bucket

Hive中不支持对数据的改写和添加，所有的数据都是在加载的时候中确定好的

由于数据的访问延迟较高，决定了 Hive 不适合在线数据查询

Hivebucket:

hive中table可以拆分partition，table和partition可以通过‘CLUSTERED(聚集) BY ’进一步分bucket，bucket中的数据可以通过‘SORT BY’排序

ucket主要作用：

1. 数据sampling(抽样)

2. 提升某些查询操作效率，例如map side join

需要特别注意的是：clustered by和sorted by不会影响数据的导入，这意味着，用户必须自己负责数据如何如何导入，包括数据的分桶和排序。

‘sethive.enforce.bucketing = true‘ 可以自动控制上一轮reduce的数量从而适配bucket的个数，当然，用户也可以自主设置mapred.reduce.tasks去适配bucket个数，推荐使用‘set hive.enforce.bucketing = true‘

示例：

建临时表user_tmp并导入数据：

hive> select * from user_tmp;

Id    age     name    stat

1 20   zxm 20140801

2 21   ljz   20140801

3 19   cds 20140801

建student表：

hive>create table user(id INT, age INT, nameSTRING)

>partitionedby(stat_date STRING)

>clustered by(id) sorted by(age)into 2 bucket

>row formatdelimited fields terminated by ‘,‘;

设置环境变量：

>set hive.enforce.bucketing = true;

插入数据：

>from student_tmp

>insert overwrite table user partition(stat_date="20140802")

>select id,age,name where stat_date="20140801" sort by age;

查看文件目录：

$ hadoop fs -ls /user/hive/warehouse/usertstat_date=20120802/

Found 2 items

-rw-r--r-- 1 work supergroup 31 2014-07-3119:52 /user/hive/warehouse/user/stat_date=20120802/000000_0

-rw-r--r-- 1 work supergroup 39 2014-07-3119:52 /user/hive/warehouse/user/stat_date=20120802/000001_0

查看sampling数据：

hive>select*from user tablesample( bucket

1out of 2 on id);

Total MapReduce jobs = 1

4 18   mac 20120802

2 21   ljz 20120802

6 23   symbian 20120802

tablesample是抽样语句，语法：TABLESAMPLE(BUCKETx OUT OF y)

y必须是table总bucket数的倍数或者因子。hive根据y的大小，决定抽样的比例。例如，table总共分了64份，当y=32时，抽取(64/32=)2个bucket的数据，当y=128时，抽取(64/128=)1/2个bucket的数据。x表示从哪个bucket开始抽取。例如，table总bucket数为32，tablesample(bucket 3 out of 16)，表示总共抽取（32/16=）2个bucket的数据，分别为第3个bucket和第（3+16=）19个bucket的数据。

Hive bucket

时间： 2024-10-21 14:12:50

Hive bucket的相关文章

Hive bucket桶

对于每一个表(table)或者分区,Hive可以进一步组织成桶.Hive也是针对某一列进行桶的组织.Hive采用对列值哈希,然后除于桶的个数求余的方式决定该条记录存放在哪个桶当中.采用桶能够带来一些好处,比如JOIN操作.对于JOIN操作两个表有一个相同的列,如果对这两个表都进行了桶操作.那么将保存相同列值的桶进行JOIN操作就可以,可以大大减少JOIN的数据量. Hive中table可以拆分成Partition,table和Partition可以通过'CLUSTERED BY'进一步分buck

hive bucket 桶

对于每一个表(table)或者分区,Hive可以进一步组织成桶.Hive也是针对某一列进行桶的组织.Hive采用对列值哈希,然后除以桶的个数求余的方式决定该条记录存放在哪个桶当中.采用桶能够带来一些好处,比如JOIN操作.对于JOIN操作两个表有一个相同的列,如果对这两个表都进行了桶操作.那么将保存相同列值的桶进行JOIN操作就可以,可以大大较少JOIN的数据量. hive中table可以拆分成partition,table和partition可以通过'CLUSTERED BY '进一步分buc

【原】hive 操作笔记

1.建表: hive> CREATE TABLE pokes (foo INT, bar STRING);hive> CREATE TABLE invites (foo INT, bar STRING) PARTITIONED BY (ds STRING);由于很多数据在hadoop平台,当从hadoop平台的数据迁移到hive目录下时,由于hive默认的分隔符是/u0001,为了平滑迁移,需要在创建表格时指定数据的分割符号,语法如下:create table ooo(uid string,n

Hive桶表

桶(bucket)是指将表或分区中指定列的值为key进行hash,hash到指定的桶中,这样可以支持高效采样工作. 抽样(sampling)可以在全体数据上进行采样,这样效率自然就低,它还是要去访问所有数据.而如果一个表已经对某一列制作了bucket,就可以采样所有桶中指定序号的某个桶,这就减少了访问量. 针对桶的操作,总共有四步: 1).开启桶的服务 Hive > set hive.enforce.buketing=true; 2).创建桶表首先,我们来看如何告诉Hive—个表应该被划分成桶

hive中的bucket table

前言 bucket table(桶表)是对数据进行哈希取值,然后放到不同文件中存储应用场景当数据量比较大,我们需要更快的完成任务,多个map和reduce进程是唯一的选择.但是如果输入文件是一个的话,map任务只能启动一个.此时bucket table是个很好的选择,通过指定CLUSTERED的字段,将文件通过hash打散成多个小文件. create table test (id int, name string ) CLUSTERED BY(id) SORTED BY(name) INTO

Hive 分区、桶、Sort Merge Bucket Join

Hive 已是目前业界最为通用.廉价的构建大数据时代数据仓库的解决方案了,虽然也有 Impala 等后起之秀,但目前从功能.稳定性等方面来说,Hive 的地位尚不可撼动. 其实这篇博文主要是想聊聊 SMB join 的,Join 是整个 MR/Hive 最为核心的部分之一,是每个 Hadoop/Hive/DW RD 必须掌握的部分,之前也有几篇文章聊到过 MR/Hive 中的 join,其实底层都是相同的,只是上层做了些封装而已. 前面两个很好理解,基本上每个人都会接触到,但最后一种,可能有同学

【转】Hive 基础之：分区、桶、Sort Merge Bucket Join

Hive 已是目前业界最为通用.廉价的构建大数据时代数据仓库的解决方案了,虽然也有 Impala 等后起之秀,但目前从功能.稳定性等方面来说,Hive 的地位尚不可撼动. 其实这篇博文主要是想聊聊 SMB join 的,Join 是整个 MR/Hive 最为核心的部分之一,是每个 Hadoop/Hive/DW RD 必须掌握的部分,之前也有几篇文章聊到过 MR/Hive 中的 join,其实底层都是相同的,只是上层做了些封装而已,如果你还不了解究竟 Join 有哪些方式,以及底层怎么实现的,请参

Hive之分区以及bucket分桶认识理解

1. 桶的概念: 对于每一个表(table)或者分区, Hive可以进一步组织成桶(没有分区能分桶吗?),也就是说桶是更为细粒度的数据范围划分.Hive也是针对某一列进行桶的组织.Hive采用对列值哈希,然后除以桶的个数求余的方式决定该条记录存放在哪个桶当中.把表(或者分区)组织成桶(Bucket)有两个理由:(1).获得更高的查询处理效率.桶为表加上了额外的结构,Hive 在处理有些查询时能利用这个结构.具体而言,连接两个在(包含连接列的)相同列上划分了桶的表,可以使用 Map 端连接 (M

Hadoop Hive基础sql语法

Hive 是基于Hadoop 构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据,可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行,通过自己的SQL 去查询分析需要的内容,这套SQL 简称Hive SQL,使不熟悉mapreduce 的用户很方便的利用SQL 语言查询,汇总,分析数据.而mapreduce开发人员可以把己写的mapper 和reducer 作为插件来支持