从今天起,阅读hive编程指南。每天进步一点点!
安装hive
1.解压hive
2.Hive使用环境变量HADOOP_HOME来指定Hadoop的所有相关的Jar和配置文件
Hive的内部组件
- Thrift服务提供给了可远程访问其它进程的功能,也提供使用JDBC和ODBC访问Hive的功能。这些都是基于Thrift服务实现的。
- 所有Hive客户端都需要一个metastoreservice,Hive使用这个服务来存储表模式信息和其它元数据,默认情况下,hive会使用内置的Derby SQL数据库。对于集群来讲,需要使用Mysql或者类似的关系型数据库
- HWI 简单的网页界面,hive网页界面
分布式模式的配置
- 表存储所位于的顶级文件目录 hive..etastore.warehouse.dir=/user/hive/warehouse
- hive-site.xml中元素局存储数据库的配置
mysql的驱动jar放在¥HIVE_HOME/lib目录下,驱动和配置设置正确后,hive会将元数据信息春初到mysql中
Hive命令
命令行界面。也就是CLI,是和hive交互最常用的方式。
bin/hive --help
CLI选项
hive --help --service cli
--define key=value实际上和--hivevar key=value是等价的。都是用户自定义变量以便于在hIve脚本中引用。当用户使用这个功能的时候,hive会将键值对放入到hivevar命名空间,可以和其它3中内置命名空间(也就是hiveconf,system和env),进行区分。
在CLI中,可以使用SET命令显示或者修改变量值。
Hive中所有的内置属性都是$HIVE_HOME/confi/hivedefault.xml.template中列举出来
一次使用命令 -e
hive -e “SELECT * FROM mytable LIMIT 3;
可以使用这个功能将查询结果保存到一个文件中增加-S选项可以开启静态模式,这样可以在输出结果中去掉“OK和“TIME taken等行
从文件中执行Hive查询
Hive中可以使用 -f文件名方式执行指定文件中一个或多个查询语句。
一般把这些查询文件保存为具有.q或者.hql后缀名的文件。
hiverc文件
-i CLI的-i 选项,这个选项允许用户指定一个文件,当CLI启动后,提示符出现前,会执行这个文件。HIVE会自动到HOME目录下寻找名为.hiverc的文件,而且会自动执行这个文件中的命令。
查看操作历史
hive会将10000行操作命令记录到$HOME/.hivehistory中
执行shell命令
在hive中使用hadoop的dfs命令
显示字段名称
时间: 2024-10-12 12:51:04