Hive中join, outer join, semi join区别

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。

最常用的就是多表关联查询，主要讲解下join、outer join和semi join的具体使用。

join是最简单的关联操作，两边关联只取交集。

outer join分为left outer join、right outer join和full outer join。

left outer join是以左表驱动，右表不存在的key均赋值为null；

right outer join是以右表驱动，左表不存在的key均赋值为null；

full outer join全表关联，将两表完整的进行笛卡尔积操作，左右表均可赋值为null。

semi join最主要的使用场景就是解决exist in。

Hive不支持where子句中的子查询，SQL常用的exist in子句在Hive中是不支持的。

SELECT a.key, a.value

FROM a

WHERE a.key in (SELECT b.key FROM B);

可以改写为：

SELECT a.key, a.value

FROM a LEFT OUTER JOIN b ON (a.key = b.key)

WHERE b.key <> NULL;

一个更高效的实现为：

SELECT a.key, a.value

FROM a LEFT SEMI JOIN b on (a.key = b.key);

left semi join是0.5.0以上版本的特性。

Hive中join, outer join, semi join区别

时间： 2024-11-15 19:53:32

Hive中join, outer join, semi join区别的相关文章

hive中与hbase外部表join时内存溢出（hive处理mapjoin的优化器机制）

与hbase外部表(wizad_mdm_main)进行join出现问题: CREATE TABLE wizad_mdm_dev_lmj_edition_result as select * from wizad_mdm_dev_lmj_20141120 as w JOIN wizad_mdm_main as a ON (a.rowkey = w.guid); 程序启动后,死循环,无反应.最后在进行到0.83时,内存溢出失败. 原因: 默认情况下,Hive会自动将小表加到DistributeCa

Hadoop Hive 中几种排序方法的区别与比较

Hive 中 Order by, Sort by ,Dristribute by,Cluster By 的作用和用法 1. order by set hive.mapred.mode=nonstrict; (default value / 默认值) set hive.mapred.mode=strict; order by 和数据库中的Order by 功能一致,按照某一项 & 几项排序输出. 与数据库中 order by 的区别在于在hive.mapred.mode = strict 模式下

Hive中JOIN操作

1. 只支持相等JOIN. 2. 多表连接当使用不同的列进行JOIN时,会产生多个MR作业. 3. 最后的表的数据是从流中读取,而前面的会在内存中缓存,因此最好把最大的表放在最后. SELECT /*+ STREAMTABLE(a) */ a.val, b.val, c.val FROM a JOIN b ON (a.key = b.key1) JOIN c ON (c.key = b.key1)//暗示 4. JOIN在WHERE子句前进行处理. SELECT a.val, b.val FRO

Hive中join

Hive-表连接 1)Hive只支持等值连接,即ON子句中使用等号连接,不支持非等值连接. 2)如果连接语句中有WHERE子句,会先执行JOIN子句,再执行WHERE子句 3)测试假设有以下测试数据表user数据如下 User_id name 1 张三 2 李四 3 王五表job数据如下 Job_id job user_id 1 工程师 1 2 美工 2 3 美工 4 建表语句如下 CREATE TABLE IF NOT EXISTS user(id int, name string) R

Hive 中Join的专题---Join详解

1.什么是等值连接? 2.hive转换多表join时,如果每个表在join字句中,使用的都是同一个列,该如何处理? 3.LEFT,RIGHT,FULL OUTER连接的作用是什么? 4.LEFT或RIGHT join是连接从左边还有右边? Hive表连接的语法支持如下: Sql代码 : join_table: table_reference JOIN table_factor [join_condition] | table_reference {LEFT|RIGHT|FULL} [OUTER

大数据学习——关于hive中的各种join

准备数据 2,b 3,c 4,d 7,y 8,u 2,bb 3,cc 7,yy 9,pp 建表: create table a(id int,name string) row format delimited fields terminated by ','; create table b(id int,name string) row format delimited fields terminated by ','; 导入数据: load data local inpath '/root/h

SQL语句Left join 中On和Where的用法区别

SQL语句如下: SELECT * FROM 表1 LEFT JOIN 表2 ON 表1.id = 表2.id AND 表2.Name != 'ff'WHERE 表1.NAME != 'aa' 步骤1:返回笛卡尔积(SELECT * FROM 表1 CROSS JOIN 表2) 步骤2:应用ON筛选器(当前的条件为表1.id = 表2.id AND 表2.Name != 'ff') 步骤3:添加外部行这一步只对OUTER JOIN起作用,如果是LEFT JOIN会以左边的表为保留表,如果是

DB2数据库的外连接(OUTER JOIN)，内连接(INNER JOIN)和交叉连接(CROSS JOIN)区别

1.交叉连接(CROSS JOIN):有两种,显式的和隐式的,不带ON子句,返回的是两表的乘积,也叫笛卡尔积,返回记录的个数应当是a和b表中符合记录的和. 显式:select [cols_list] from a cross join b where [condition] 隐式:select [cols_list] from a, b where [condition] 2.内连接(INNER JOIN):有两种,显式的和隐式的,返回连接表中符合连接条件和查询条件的数据行,和我们写普通的sql

hive用left semi join替代in子查询的方式

执行如下hive sql: select * from trackinfo where ds=$date and session_id in (select session_id from rcmd_track_path where ds=$date and add_cart_flag>0 and product_id>0);</span> 提示报错如下: FAILED: ParseException line 2:39 cannot recognize input near 's