Hive中变量的使用

1.Hive配置属性

(1)命令行方式

Hive配置属性存储于 hiveconf 命名空间中,该命名空间中的属性是可读写的。在查询语句中插入 ‘${hiveconf:变量名}‘,就可以通过 hive -hiveconf来替换变量。例如,查询语句和执行方式如下:

[root]$cat test.sql    #查看该文件
SELECT * FROM ${hiveconf:tablename}
limit ${hiveconf:var_rows};
[root]$hive -hiveconf tablename=‘t1‘ -hiveconf var_rows=10 -f test.sql
或者
#!/bin/bash
tablename="student"
limitcount="8"

hive -S -e "use test; select * from ${tablename} limit ${limitcount};"

需要注意的是:

  • 如果有多个变量,每个变量前都要有参数 -hiveconf
  • 变量赋值等号左右不能有空格(例如var_rows=10不能有空格)

(2)hql脚本方式

-- 设置变量
SET startdate=20181201;
SET enddate=20181231;
SET event_name=(‘网商节_主会场‘, ‘网商节_微信分享‘,‘网商节_主会场‘,‘网商节_分会场‘);

-- 查询语句
select
    event_name
    , count(1) pv
    , count(distinct ga_id) uv
from edw_log.user_trace_log_di
where dt between ${hiveconf:startdate} and ${hiveconf:enddate}
and  event_name  in ${hiveconf:event_name}
and data_source_id = ‘3‘
group by event_name
;
2.Hive命令行变量

Hive命令行变量,存储于 hivevar 命名空间中,该命名空间中的变量是可读写的。使用方式和hive配置属性类似,只是在查询语句中插入的是‘${hivecar:变量名}‘,其中命名空间"hivecar:"可以省略。例如:

[root]$cat test.sql
SELECT * FROM ${hivevar:tablename}  #等同于${tablename}
limit ${hiveconf:var_rows};
[root]$hive -hivevar tablename=‘t1‘ -hiveconf var_rows=10 -f test.sql

因为命令行变量的命名空间是唯一可以省略的,因此:

  • ${hivevar:变量名}等价于${变量名}
  • 除了用hive -hivevar 变量赋值,还可以用hive -d,d是define的简写,例如下面三个执行方式是一样的:
[root]$hive -hivevar tablename=‘t1‘ -hiveconf var_rows=10 -f test.sql
[root]$hive -define tablename=‘t1‘ -hiveconf var_rows=10 -f test.sql
[root]$hive -d tablename=‘t1‘ -hiveconf var_rows=10 -f test.sql

其他替换变量的方法:
利用shell脚本设置hive查询语句中的变量
利用Python替换Hive查询语句中的变量

参考资料:

在hive查询中使用变量
hive 传递变量的两种方式
hive中的hiveconf与hivevar区别以及其作用域

原文地址:https://www.cnblogs.com/shujuxiong/p/10265800.html

时间: 2024-10-12 15:00:28

Hive中变量的使用的相关文章

Hive 中 set 定义出来的变量以及 hive -d 设置的变量

set自定义变量 今天踩了一个坑: 在hive的命令行操作中,用set 命令可以自定义出一个变量,但是在函数中使用时确调不出来,如图 在查找原因时,这位大佬的博客https://www.cnblogs.com/superpang/p/4639145.html启发了我,会不会是命名空间的原因让函数调用时无法找到变量呢 这次用带命名空间的方式重新定义了变量,然后再次调用函数,见证奇迹的时刻到了! 这说明 “在hive中使用set操作自定义变量时,hivevar:命名空间不是可选的,应该是在使用set

Hive中的分桶

对于每一个表(table)或者分区, Hive可以进一步组织成桶,也就是说桶是更为细粒度的数据范围划分.Hive也是针对某一列进行桶的组织.Hive采用对列值哈希,然后除以桶的个数求余的方式决定该条记录存放在哪个桶当中. 把表(或者分区)组织成桶(Bucket)有两个理由: (1)获得更高的查询处理效率.桶为表加上了额外的结构,Hive 在处理有些查询时能利用这个结构.具体而言,连接两个在(包含连接列的)相同列上划分了桶的表,可以使用 Map 端连接 (Map-side join)高效的实现.比

hive的变量传递设置

hive的变量传递设置 今天同事在oozie的workflow中执行一个hive查询,但是直接就报异常:Variable substitution depth too large:40,从网上查询可知,可以确认是由于语句中使用了过多的变量导致,在hive以前的版本中,这个限制是写死的40个,查询Hive的最新的原代码,虽然判断的位置的提示信息已经变化,但是原理一样: ### org.apache.hadoop.hive.ql.parse.VariableSubstitution: public

【甘道夫】Sqoop1.4.4 实现将 Oracle10g 中的增量数据导入 Hive0.13.1 ,并更新Hive中的主表

需求 将Oracle中的业务基础表增量数据导入Hive中,与当前的全量表合并为最新的全量表. ***欢迎转载,请注明来源***    http://blog.csdn.net/u010967382/article/details/38735381 设计 涉及的三张表: 全量表:保存了截止上一次同步时间的全量基础数据表 增量表:增量临时表 更新后的全量表:更新后的全量数据表 步骤: 通过Sqoop将Oracle中的表导入Hive,模拟全量表和增量表 通过Hive将"全量表+增量表"合并为

Hive之变量和属性

首先看一下hive cli工具对于变量的定义规定的几项功能: $ bin/hive -h usage: hive -d,--define <key=value>          Variable subsitution to apply to hive commands. e.g. -d A=B or --define A=B --database <databasename>     Specify the database to use -e <quoted-query

Hive中使用LZO

hive 中使用lzo 1 启动hive 错误Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/hive/conf/HiveConf           at java.lang.Class.forName0(Native Method)           at java.lang.Class.forName(Class.java:247)           at org.apa

hive中order by,sort by, distribute by, cluster by作用以及用法

1. order by Hive中的order by跟传统的sql语言中的order by作用是一样的,会对查询的结果做一次全局排序,所以说,只有hive的sql中制定了order by所有的数据都会到同一个reducer进行处理(不管有多少map,也不管文件有多少的block只会启动一个reducer).但是对于大量数据这将会消耗很长的时间去执行. 这里跟传统的sql还有一点区别:如果指定了hive.mapred.mode=strict(默认值是nonstrict),这时就必须指定limit来

java中变量命名和引用变量的一个坑

这次有两个主题,第一个太简单啦,就是java中变量的命名规则,纯记忆性东西.第二个主题,就是讨论一下对象引用变量的一个注意点. 如果你对命名规则很熟啦,就直接看第二个内容吧.(上边的图稍微有点顺序紊乱啊) 一.java中变量的命名规则 大多数语言的命名规则是相似的,只有一些微小的差别. 变量的第一个位置,可以是字母,下划线(_),美元符($) (这个在c/c++,python中是不行的)(注意:不能是数字哦,一想就知道啦为什仫) 其他的位置可以是数字,字母,下划线 不能使用java中的关键字 j

kettle连接Hive中数据导入导出(6)

1.hive往外写数据 http://wiki.pentaho.com/display/BAD/Extracting+Data+from+Hive+to+Load+an+RDBMS 连接hive 表输入 1)往excel中写数据 2)往文本文件中写数据 注:这里需要填上hive的表名.字段名,不然会报如下错误: 2016/07/27 15:43:01 - 表输入.0 - ERROR (version 3.2.0, build 1 from 2016-07-07 10.46.10 by xnren