Hive学习之动态分区及HQL

Hive动态分区

1、首先创建一个分区表
create table t10(name string)
partitioned by(dt string,value string)
row format delimited fields terminated
by ‘\t‘ lines terminated by ‘\n‘
stored as textfile;
2、然后对hive进行设置,使之支持动态分区,
set hive.exec.dynamic.partition.mode=nonstrict;
如果限制是strict,则必须有一个静态分区,且放在最前面
set hive.exec.dynamic.partition.mode=strict;
3、最后向t10表中插入数据,同时指定分区
insert overwrite table t10 partition(dt=‘2014010090‘,value)
select ‘34‘ as name,addr as value from t9;
HQL函数
1、order by
    按照某些字段进行排序,例如:select clol,clo2... from table_name where condition order by clo1,clo2[asc|desc];
order by 后面可以对多列进行排序,默认按照字典进行排序,order by为全局排序,它需要reduce操作,并且只有一个
reduce,和配置没有关系
假如表t2中的数据格式为:

id     name
1    zhangsan
2      lisi
3     wangwu
4     sunfei
5     cuiying
对此进行语句:select * from t2 order by id desc,name asc;
对第一列进行降序排列,对第二列进行升序排列。由于order by是全局排序,并且只使用了一个reduce,所以在实际应用中应该尽量少使用order by进行排序
2、group by
    按照某些字段的值进行分组,将相同的值放在一起
select col1[,col2],count(),sel_expr(聚合操作)
from table
where condition
group by col1[,col2]
[having]
注意,select后面非聚合列必须出现在group by中,除了普通列就是一些聚合操作,group by后面也可以跟表达式,比如substr(col)
同时,group by 使用了reduce操作,受限于reduce的数量,设置reduce的数量可以mapred.reduce.tasks,输出文件个数和reduce的个数
相同,文件大小与reduce处理的数据量有关,在实际应用过程中,它存在一些问题,如网络负载过重以及数据倾斜(在处理数据过程中,从map到reduce的过程是按照key值进行划分,
由key值决定文件是由哪个reduce来执行,假如某一个reduce中处理的key过多,即就是某一个reduce处理任务过多,执行时间过长,导致整个Job作业执行时间过长,在其他reduce任务已经完成后,
这个处理过多reduce的任务会严重拖慢整体任务的完成时间,这就是数据倾斜,可以通过将
hive.groupby.skewindata参数设置为true,hive自动启动优化程序来避免数据倾斜)等问题。
例如:set mapred.reduce.tasks=5;
      set hive.groupby.skewindata=true;//数据倾斜时候可以使用
      select country,count(1) as num from info group by country;
3、join
两个表m,n之间按照On条件进行连接,m中的一条记录和n中的一条记录组成一条新纪录,它是等值连接,只有某个值在m和n中同时存在的时候才可以进行连接操作,left outer join 左边外接,左边
表中的值无论是否在b中存在的时候,都输出,右边表中的值只有在左边表中存在的时候才输出,left outer join则相反,left semi join的作用类似于exits, mapjoin则是在map端完成join操作,
不需要reduce,基于内存做join,属于优化操作
例如:
a表:     b表:
co1 co2   co3   co4
1    w     1     f
3    e     1     g
5    r     4     j
对a和b表执行语句:
select s.co1,s.co2,t.co4
from
(select col from a where ...(map端执行))s(左表)
join
(select col from b)t(右表)
on s.co1 = t.co3
where condition(reduce端执行)
其结果为:
1 w f
1 w g
5 e j
执行过程是:对于a表中的每一行数据,在b表中进行遍历,如果查找到相同的则提取这一样存在一个新表中。
如果将join修改为:left outer join 则执行结果为:
1 w f
1 w g
5 e j
3 r null
执行原则是:key值必须在a表中存在,但可以不在b表中存在
如果将join修改为:right outer join 则执行结果为:
1 w f
1 w g
5 e j
2 null p
执行原则是:key值必须在b表中存在,但可以不在a表中存在
如果将join修改为:left semi join 则执行结果为:
1 w f
5 e j
执行原则是:首先查看a表中的第一条记录,如果在b中存在相同记录则输出a中的记录
4、Mapjoin
    Mapjoin在map端把小表加载到内存中,然后读取大表,和内存中的小表完成连接操作,
其中使用了分布缓存技术,它的执行不消耗集群的reduce资源(因为集群的reduce
资源相对短缺),减少了reduce操作,加快程序执行,降低网络负载,但是,它占用
部分内存,所以加载到内存中的表不能过大,因为每个计算节点都会加载一次,同时
会生成较多的小文件。
    通过如下配置,hive自动根据sql选择使用common join或者map join
    set hive.auto.convert.join=true;
    hive.mapjoin.smalltable.filesize默认值为25Mb
还可以手动指定:
    select/*+mapjoin(n(表名))*/m.col,m.col2,n.col3 from m
    join n
    on m.col = n.col
总之,mapjoin的使用场景主要有:
    关联操作中有一张表非常小,大表和小表进行关联
    不等值的链接操作
5、Hive分桶
    (1)对于每一个表或者分区,Hive可以进一步组织成桶,也就是说桶是更为细粒度的数据
    范围划分
    (2)Hive是针对某一列进行分桶
    (3)Hive采用对列值哈希,然后除以桶的个数求余的方式决定该条记录存放在哪个桶中
    分桶的好处是可以获得更高的查询处理效率,使取样更高效
    create table t(id int,name string)
    clustered by(id)sorted by(name)into 4 buckets
    row format delimited fields terminated by ‘\t‘
    stored as textfile;
    set hive.enforce.bucketing=true;
6、分桶的使用
    select * from t tablesample(bucket 1 out of 2 on id)
    这句话的意思是将所有的桶分成两份,然后取其中的一份
    bucket join
    set hive.optimize.bucketmapjoin = true;
    set hive.optimize.bucketmapjoin.sortedmerge =true;
    set hive.input.format = org.apache.hadoop.hive.ql.io.BucketizedHiveInputFormat;
    连接两个在(包含连接列)相同列张划分了桶的表,可以使用Map端连接(Map-site join)
    高效的实现,比如Join操作。对于Join操作两个表有一个相同的列,如果对这两个表都进
    桶操作,那么将保存相同列值得桶进行Join操作就可以,可以大大减少Join的数据量
    对于Mapd端连接的情况,两个表以相同方式划分桶。处理左边表某个桶的mapper知道右边表
    内相匹配的行在对应的桶内。因此,mapper只需要获取那个桶(这只是右边表内存储数据的
    一小部分)即可进行连接。这一优化方法并不一定要求两个表的桶的个数相同,两个表的桶
    个数是倍数关系也可以。

时间: 2024-08-26 19:19:11

Hive学习之动态分区及HQL的相关文章

hive:默认允许动态分区个数为100,超出抛出异常:

在创建好一个分区表后,执行动态分区插入数据,抛出了错误: Caused by: org.apache.hadoop.hive.ql.metadata.HiveFatalException: [Error 20004]: Fatal error occurred when node tried to create too many dynamic partitions. The maximum number of dynamic partitions is controlled by hive.e

Hive动态分区

Hive默认是静态分区,我们在插入数据的时候要手动设置分区,如果源数据量很大的时候,那么针对一个分区就要写一个insert,比如说,我们有很多日志数据,我们要按日期作为分区字段,在插入数据的时候我们不可能手动的去添加分区,那样太麻烦了.还好,Hive提供了动态分区,动态分区简化了我们插入数据时的繁琐操作. 使用动态分区的时候必须开启动态分区(动态分区默认是关闭的),语句如下: [java] view plain copy set hive.exec.hynamic.partition=true;

HIVE动态分区实战

一)hive中支持两种类型的分区: 静态分区SP(static partition) 动态分区DP(dynamic partition) 静态分区与动态分区的主要区别在于静态分区是手动指定,而动态分区是通过数据来进行判断.详细来说,静态分区的列实在编译时期,通过用户传递来决定的:动态分区只有在SQL执行时才能决定. 二)实战演示如何在hive中使用动态分区 1.创建一张分区表,包含两个分区dt和ht表示日期和小时 CREATE TABLE partition_table001 ( name ST

Hive分区(静态分区+动态分区)

Hive分区的概念与传统关系型数据库分区不同. 传统数据库的分区方式:就oracle而言,分区独立存在于段里,里面存储真实的数据,在数据进行插入的时候自动分配分区. Hive的分区方式:由于Hive实际是存储在HDFS上的抽象,Hive的一个分区名对应一个目录名,子分区名就是子目录名,并不是一个实际字段. 所以可以这样理解,当我们在插入数据的时候指定分区,其实就是新建一个目录或者子目录,或者在原有的目录上添加数据文件. Hive分区的创建 Hive分区是在创建表的时候用Partitioned b

Hive的静态分区和动态分区

作者:Syn良子 出处:http://www.cnblogs.com/cssdongl/p/6831884.html 转载请注明出处 虽然之前已经用过很多次hive的分区表,但是还是找时间快速回顾总结一下加深理解. 举个栗子,基本需求就是Hive有一张非常详细的原子数据表original_device_open,而且还在不断随着时间增长,那么我需要给它进行分区,为什么要分区?因为我想缩小查询范围,提高速度和性能. 分区其实是物理上对hdfs不同目录进行数据的load操作,0.7之后的版本都会自动

Hive Experiment 2(表动态分区和IDE)

1.使用oracle sql developer 4.0.3作为hive query的IDE. 下载hive-jdbc driver http://www.cloudera.com/content/cloudera/en/downloads/connectors/hive/jdbc/hive-jdbc-v2-5-6.html Start    Oracle    SQL    Developer    and    navigate    to    Preferences    |    Da

hive从查询中获取数据插入到表或动态分区

(前人写的不错,很实用,负责任转发)转自:http://www.crazyant.net/1197.html Hive的insert语句能够从查询语句中获取数据,并同时将数据Load到目标表中.现在假定有一个已有数据的表staged_employees(雇员信息全量表),所属国家cnty和所属州st是该表的两个属性,我们做个试验将该表中的数据查询出来插入到另一个表employees中. 1 2 3 4 INSERT OVERWRITE TABLE employees PARTITION (cou

Hive架构层面优化之五合理设计表分区(静态分区和动态分区)

合理建表分区有效提高查询速度. 重要数据采用外部表存储,CREATE EXTERNAL TABLE,数据和表只是一个location的关联,drop表后数据不会丢失: 内部表也叫托管表,drop表后数据丢失:所以重要数据的表不能采用内部表的方式存储. 在全天的数据里查询某个时段的数据,性能很低效------可以通过增加小时级别的分区来改进! Trackreal为例,有三个分区: 日增量: 按日期分区: 小时增量:按日期.小时分区: 10分钟增量:按日期.小时.step分区:每个小时要导6次. 场

Hive静态分区和动态分区

一.静态分区 1.创建分区表 1 hive (default)> create table order_mulit_partition( 2 > order_number string, 3 > event_time string 4 > ) 5 > PARTITIONED BY(event_month string, step string) 6 > row format delimited fields terminated by '\t'; 2.加载数据到分区表