Hive 桶表

桶表

1）桶是更为细粒度的数据范围划分，它能使一些特定的查询效率更高

2）保存数据时，取分桶字段的哈希值，跟分桶数取余，然后将数据放到不同的桶（文件）里。

1、定义：

create table b1(id int, name string) clustered by (id) into 4 buckets;

2、加载数据：

1）使用load data 来加载数据，可以加载成功，也能查询到，但是没有分桶。

2）insert into b1 select .. ，调用mapreduce任务，对分桶字段进行计算，将数据分到不同的桶里。

3、桶表的两个应用场景：

1、join连接操作

如果两个表的桶划分一致，并且连接字段是分桶字段，可以提高连接的效率

2、抽样查询

select * from b1 tablesample(bucket 1 out of 4 on id);

抽样语法：

tablesample(bucket x out of y)

y必须是table总bucket数的倍数或者因子。hive根据y的大小，决定抽样的比例（表的分桶总数/y）。例如，table总共分了64份，当y=32时，抽取 (64/32=)2个bucket的数据，当y=128时，抽取(64/128=)1/2个bucket的数据。

x表示从哪个bucket开始抽取。例如，table总bucket数为32，tablesample(bucket 3 out of 16)，表示总共抽取（32/16=）2个bucket的数据，分别为第3个bucket和第（3+16=）19个bucket的数据。

来自为知笔记(Wiz)

时间： 2024-11-12 01:02:42

Hive 桶表的相关文章

Hive桶表

桶(bucket)是指将表或分区中指定列的值为key进行hash,hash到指定的桶中,这样可以支持高效采样工作. 抽样(sampling)可以在全体数据上进行采样,这样效率自然就低,它还是要去访问所有数据.而如果一个表已经对某一列制作了bucket,就可以采样所有桶中指定序号的某个桶,这就减少了访问量. 针对桶的操作,总共有四步: 1).开启桶的服务 Hive > set hive.enforce.buketing=true; 2).创建桶表首先,我们来看如何告诉Hive—个表应该被划分成桶

hadoop笔记之Hive的数据存储(桶表)

Hive的数据存储(桶表) Hive的数据存储(桶表) 桶表桶表是对数据进行哈希取值,然后放到不同文件中存储. 比如说,创建三个桶,而创建桶的原则可以按照左边表中学生的名字来创建对应的桶.这样子把左边的数据存到桶里面来的时候可以把学生名字经过哈希运算,把相同哈希运算的值的列存放在同一个桶当中.比如Tom.Jerry.Scott经运算以后它们的哈希值是一样的,那么这三个人的信息就会存放在相同的一个桶里面. 有了桶表以后,就能够降低系统的文件块,从而提高查询速度 ○ 如何创建桶表?(用名字进行创建

Hive探秘--内部表、外部表、分区表、桶表研究

Hive知识一.建表语法 CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name data_type [COMMENT col_comment], ...)] [COMMENT table_comment] [PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)] [CLUSTERED BY (col_name, col_name, ...) [SORTE

Hive分区与桶表

1.分区在hive中使用select查询一般会扫描整个表的内容,从而降低降低查询的效率.引入分区的概念,使得查询时只扫描表中关心的部分数据. 一个表中可以有一个或多个分区,每个分区以文件夹的形式单独存在表文件夹的目录下. 1.1分区建表分为单分区和双分区建表: 单分区建表语句:create table sample_table (id int, value string) partitioned by (age int) row format delimited fields terminat

hive 分区表、桶表和外部表

1:分区表图:创建分区表图:导入数据图:在HDFS的显示信息分区字段就是一个文件夹的标识图:在多列上创建分区图:导入数据图:在多列上建立分区后在HDFS上形成的结构信息把表中的大多数字段建立为分区字段,可行吗?分区不是越多越好,分区越多的话,加载数据的话必须注意分区,那么文件会被控制的非常小,Map的任务数量增多, 计算不一定会快.Hive限定了分区的数量.选用一些查询比较频繁的字段来建立分区,时间字段等. 查询比较频繁,并且不会有很多枚举值的字段,适合作为分区字段.分区字段就是

Hive SQL之分区表与分桶表

Hive sql是Hive 用户使用Hive的主要工具.Hive SQL是类似于ANSI SQL标准的SQL语言,但是两者有不完全相同.Hive SQL和Mysql的SQL方言最为接近,但是两者之间也存在着显著的差异,比如Hive不支持行级数据的插入.更新和删除,也不支持事务操作. 注: HIVE 2.*版本之后开始支持事务功能,以及对单条数据的插入更新等操作 Hive的相关概念 Hive数据库 Hive中的数据库从本质上来说仅仅就是一个目录或者命名空间,但是对于具有很多用户和组的集群来说,这个

hive 四种表，分区表，内部，外部表，桶表

Hive四大表类型内部表.外部表.分区表和桶表一.概述总体上Hive有四种表:外部表,内部表(管理表),分区表,桶表.分别对应不同的需求.下面主要讲解各种表的适用情形.创建和加载数据方法. 二.具体内容 1.内部表创建内部表和加载数据 create table emp_inner( empno int, ename string, job string, mgr int, hiredate string, sal double, comm double, d

Hive 教程(四)-分区表与分桶表

在 hive 中分区表是很常用的,分桶表可能没那么常用,本文主讲分区表. 概念分区表在 hive 中,表是可以分区的,hive 表的每个区其实是对应 hdfs 上的一个文件夹: 可以通过多层文件夹的方式创建多层分区: 通过文件夹把数据分开分桶表分桶表中的每个桶对应 hdfs 上的一个文件: 通过文件把数据分开在查询时可以通过 where 指定分区(分桶),提高查询效率分区表基本操作 1. 创建分区表 partitoned by 指定分区,后面加分区字段和分区字段类型,可以加多个

Hive 桶的分区

(一).桶的概念: 对于每一个表(table)或者分区, Hive可以进一步组织成桶(没有分区能分桶吗?),也就是说桶是更为细粒度的数据范围划分.Hive也是针对某一列进行桶的组织.Hive采用对列值哈希,然后除以桶的个数求余的方式决定该条记录存放在哪个桶当中. 把表(或者分区)组织成桶(Bucket)有两个理由:(1).获得更高的查询处理效率.桶为表加上了额外的结构,Hive 在处理有些查询时能利用这个结构.具体而言,连接两个在(包含连接列的)相同列上划分了桶的表,可以使用 Map 端连接