3.hive的基本用法

hive> show databases;
OK
default
Time taken: 20.04 seconds, Fetched: 1 row(s)
hive> show databases;
OK
default
Time taken: 0.119 seconds, Fetched: 1 row(s)
hive> create table t_t1(id int,name string);
OK
Time taken: 12.09 seconds
hive> show tables;
OK
t_t1
Time taken: 0.113 seconds, Fetched: 1 row(s)

会在hive库中的TBLS表中多出一条一句 该语句是记录创建表名称和使用哪个用户创建的还有时间等等..

在hive库中Tbls表中多出一条记录

还会在

从本地导入数据到hive的表中(实质就是将文件上传到hdfs中hive管理目录下)

load data local inpath‘/home/zhangyf/Documents/test2.txt‘ into table t_t3;

//从hdfs上导入数据到hive表中(实质就是将文件从原始目录移动到hive管理的目录下)

load data inpath‘hdfs://ns1/aa/bb/data.log‘ into table tab_user;
时间: 2024-10-12 14:23:22

3.hive的基本用法的相关文章

sql中的exist in在hive中的用法

Hive不支持where子句中的子查询,SQL常用的exist in子句需要改写. 这一改写相对简单.考虑以下SQL查询语句: SELECT a.key, a.value FROM a WHERE a.key in (SELECT b.key FROM B); 改写成: SELECT a.key, a.value FROM a LEFT OUTER JOIN b ON (a.key = b.key) WHERE b.key <> NULL; 解释:先做左连接,结果形如: aaa  111 bb

hive支持in用法是从0.3.2版本后

写hive 用in 如分时段,分类型,分平台统计点击量 select substr(createtime,12,2) hour,logtype,os_id,count(*) from  wizad_mdm_raw_hdfs raw where ad_id in ('19829','19830','19831','26657d5ff9020d2abefe558796b99584') and adn=5 group by substr(createtime,12,2),logtype,os_id a

HIVE Transform using 用法

select TRANSFORM(*, *, *) using 'python filter.py' as (*, *, *) from t_1 HIVE支持pipe操作,将select出来的字段,用我们的脚本进行“操作” 1, 分隔符为 \t 并没有采用hive原有的分隔符 \x01 之类的.

Hive基本语法操练

建表规则如下: CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name data_type [COMMENT col_comment], ...)] [COMMENT table_comment] [PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)] [CLUSTERED BY (col_name, col_name, ...) [SORTED BY (

hive中order by,sort by, distribute by, cluster by作用以及用法

1. order by Hive中的order by跟传统的sql语言中的order by作用是一样的,会对查询的结果做一次全局排序,所以说,只有hive的sql中制定了order by所有的数据都会到同一个reducer进行处理(不管有多少map,也不管文件有多少的block只会启动一个reducer).但是对于大量数据这将会消耗很长的时间去执行. 这里跟传统的sql还有一点区别:如果指定了hive.mapred.mode=strict(默认值是nonstrict),这时就必须指定limit来

hive 中row_number(),rank,dense_ran()的用法

hive中一般取top n时,row_number(),rank,dense_ran()这三个函数就派上用场了, 先简单说下这三函数都是排名的,不过呢还有点细微的区别. 通过代码运行结果一看就明白了. 示例数据: 1 a 10 2 a 12 3 b 13 4 b 12 5 a 14 6 a 15 7 a 13 8 b 11 9 a 16 10 b 17 11 a 14 sql语句 select id, name, sal, rank()over(partition by name order b

hive中order by,sort by, distribute by, cluster by的用法

1.order by hive中的order by 和传统sql中的order by 一样,对数据做全局排序,加上排序,会新启动一个job进行排序,会把所有数据放到同一个reduce中进行处理,不管数据多少,不管文件多少,都启用一个reduce进行处理.如果指定了hive.mapred.mode=strict(默认值是nonstrict),这时就必须指定limit来限制输出条数,原因是:所有的数据都会在同一个reducer端进行,数据量大的情况下可能不能出结果,那么在这样的严格模式下,必须指定输

hive SymlinkTextInputFormat介绍及用法

1.介绍 先摘一段官方介绍,如下: Symlink file is a text file which contains a list of filename / dirname.This input method reads symlink files from specified job input paths and takes the files / directories specified in those symlink files as actual map-reduce inp

hive grouping sets 和 cube 用法

grouping sets 和cube基本知识. 基础知识可参考 http://blog.csdn.net/mashroomxl/article/details/22578471 grouping sets 适用于多维度统计,可以代替之前lateral view explode 方式 cube 相当于grouping sets 所有条件组合. 平时跑临时需求看数据,也可以用cube.比如看某款游戏android,ios,_NONE的数量,很方便可以用一个sql写. grouping sets 与