hive 排序 order by sort by distribute by cluster by

order by：

order by是全局排序，受hive.mapred.mode的影响。

使用orderby有一些限制：

1、在严格模式下（hive.mapred.mode=strict），orderby必须跟limit一起使用（？）。

原因：在执行orderby时，hive使用一个reducer，如果查询结果量很大，这个reducer执行起来会很费劲，所以必须要限制查询输出结果的数量。

limit n 之后，reducer处理的数据有n * count(map)条数据。

2、在非严格模式下（默认，hive.mapred.mode=nonstrict），orderby可以不跟limit一起使用。

sort by：

对每个reducer里的数据进行排序，如果有多个reducer执行查询，则查询出来的数据是部分排序的。。

也可以使用limit n来减少reducer处理的数据量。

distribute by：

hive执行查询时，在mr的分区结果根据distributeby的字段进行分区，这样相同字段的数据由同一个reducer处理。

cluster by：

clusterby是distributeby和sortby的快捷方式，根据clusterby字段进行分区并排序。

例子

某一列的数据如下：

对这个字段distributeby后，

reducer1里的数据是：

reducer2里的数据是：

说明：同一个值（x1）交由同一个reducer处理，数据也是有序的。

来自为知笔记(Wiz)

时间： 2024-10-10 23:01:20

hive 排序 order by sort by distribute by cluster by的相关文章

hive中order by,sort by, distribute by, cluster by作用以及用法

1. order by Hive中的order by跟传统的sql语言中的order by作用是一样的,会对查询的结果做一次全局排序,所以说,只有hive的sql中制定了order by所有的数据都会到同一个reducer进行处理(不管有多少map,也不管文件有多少的block只会启动一个reducer).但是对于大量数据这将会消耗很长的时间去执行. 这里跟传统的sql还有一点区别:如果指定了hive.mapred.mode=strict(默认值是nonstrict),这时就必须指定limit来

hive中order by,sort by, distribute by, cluster by的用法

1.order by hive中的order by 和传统sql中的order by 一样,对数据做全局排序,加上排序,会新启动一个job进行排序,会把所有数据放到同一个reduce中进行处理,不管数据多少,不管文件多少,都启用一个reduce进行处理.如果指定了hive.mapred.mode=strict(默认值是nonstrict),这时就必须指定limit来限制输出条数,原因是:所有的数据都会在同一个reducer端进行,数据量大的情况下可能不能出结果,那么在这样的严格模式下,必须指定输

hive 中 Order by, Sort by ,Dristribute by,Cluster By 的作用和用法

order by order by 会对输入做全局排序,因此只有一个reducer(多个reducer无法保证全局有序)只有一个reducer,会导致当输入规模较大时,需要较长的计算时间. set hive.mapred.mode=nonstrict; (default value / 默认值) set hive.mapred.mode=strict; order by 和数据库中的Order by 功能一致,按照某一项 & 几项排序输出. 与数据库中 order by 的区别在于在hive.

hive order by sort by distribute by和sort by一起使用 cluster by

Hive中order by，sort by，distribute by，cluster by的区别

一:order by order by会对输入做全局排序,因此只有一个Reducer(多个Reducer无法保证全局有序),然而只有一个Reducer,会导致当输入规模较大时,消耗较长的计算时间.关于order by的详细介绍请参考这篇文章:Hive Order by操作. 二:sort by sort by不是全局排序,其在数据进入reducer前完成排序,因此,如果用sort by进行排序,并且设置mapred.reduce.tasks>1,则sort by只会保证每个reducer的输出有

hive中order by,distribute by,sort by,cluster by

order by,distribute by,sort by,cluster by 查询使用说明 // 根据年份和气温对气象数据进行排序,以确保所有具有相同年份的行最终都在一个reducer分区中 // 一个reduce(海量数据,速度很慢) select year, temperature order by year asc, temperature desc limit 100; // 多个reduce(海量数据,速度很快) select year, temperature distrib

[转]hive中order by,distribute by,sort by,cluster by

转至http://my.oschina.net/repine/blog/296562 order by,distribute by,sort by,cluster by 查询使用说明 1 2 3 4 5 6 7 8 9 10 11 12 13 // 根据年份和气温对气象数据进行排序,以确保所有具有相同年份的行最终都在一个reducer分区中 // 一个reduce(海量数据,速度很慢) select year, temperature order by year asc, temperatur

hive中order by、distribute by、sort by和cluster by的区别和联系

hive中order by.distribute by.sort by和cluster by的区别和联系 order by order by 会对数据进行全局排序,和oracle和mysql等数据库中的order by 效果一样,它只在一个reduce中进行所以数据量特别大的时候效率非常低. 而且当设置 :set hive.mapred.mode=strict的时候不指定limit,执行select会报错,如下: LIMIT must also be specified. sort by sor

hive 的分隔符、orderby sort by distribute by的优化

一.Hive 分号字符分号是SQL语句结束标记,在HiveQL中也是,但是在HiveQL中,对分号的识别没有那么智慧,例如: select concat(cookie_id,concat(';','zoo')) fromc02_clickstat_fatdt1 limit 2; FAILED: Parse Error: line 0:-1 cannot recognize input'<EOF>' in function specification 可以推断,Hive解析语句的时候,只要遇到