HIVE基础操作

　　从今天起，阅读hive编程指南。每天进步一点点！

安装hive

1.解压hive

2.Hive使用环境变量HADOOP_HOME来指定Hadoop的所有相关的Jar和配置文件

Hive的内部组件

Thrift服务提供给了可远程访问其它进程的功能，也提供使用JDBC和ODBC访问Hive的功能。这些都是基于Thrift服务实现的。
所有Hive客户端都需要一个metastoreservice，Hive使用这个服务来存储表模式信息和其它元数据，默认情况下，hive会使用内置的Derby SQL数据库。对于集群来讲，需要使用Mysql或者类似的关系型数据库
HWI 简单的网页界面，hive网页界面

分布式模式的配置

表存储所位于的顶级文件目录 hive..etastore.warehouse.dir=/user/hive/warehouse
hive-site.xml中元素局存储数据库的配置

mysql的驱动jar放在￥HIVE_HOME/lib目录下，驱动和配置设置正确后，hive会将元数据信息春初到mysql中

Hive命令

命令行界面。也就是CLI，是和hive交互最常用的方式。

bin/hive --help

CLI选项

hive --help --service cli

--define key=value实际上和--hivevar key=value是等价的。都是用户自定义变量以便于在hIve脚本中引用。当用户使用这个功能的时候，hive会将键值对放入到hivevar命名空间，可以和其它3中内置命名空间（也就是hiveconf，system和env),进行区分。

在CLI中，可以使用SET命令显示或者修改变量值。

Hive中所有的内置属性都是$HIVE_HOME/confi/hivedefault.xml.template中列举出来

一次使用命令 -e

hive -e “SELECT * FROM mytable LIMIT 3；

可以使用这个功能将查询结果保存到一个文件中增加-S选项可以开启静态模式，这样可以在输出结果中去掉“OK和“TIME taken等行

从文件中执行Hive查询

Hive中可以使用 -f文件名方式执行指定文件中一个或多个查询语句。

一般把这些查询文件保存为具有.q或者.hql后缀名的文件。

hiverc文件

-i CLI的-i 选项，这个选项允许用户指定一个文件，当CLI启动后，提示符出现前，会执行这个文件。HIVE会自动到HOME目录下寻找名为.hiverc的文件，而且会自动执行这个文件中的命令。

查看操作历史

hive会将10000行操作命令记录到$HOME/.hivehistory中

执行shell命令

在hive中使用hadoop的dfs命令

显示字段名称

时间： 2024-12-12 02:49:33

HIVE基础操作的相关文章

Hive基础之Hive表常用操作

本案例使用的数据均来源于Oracle自带的emp和dept表创建表语法: CREATE [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name [(col_name data_type [COMMENT col_comment], ...)] [COMMENT table_comment] [PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)] [CLUSTERED

Hive基础之Hive是什么以及使用场景

Hive是什么1)Hive 是建立在Hadoop (HDFS/MR)上的用于管理和查询结果化/非结构化的数据仓库:2)一种可以存储.查询和分析存储在Hadoop 中的大规模数据的机制:3)Hive 定义了简单的类SQL 查询语言,称为HQL,它允许熟悉SQL 的用户查询数据:4)允许用Java开发自定义的函数UDF来处理内置无法完成的复杂的分析工作:5)Hive没有专门的数据格式(分隔符等可以自己灵活的设定): ETL的流程(Extraction-Transformate-Loading):将关

Hive基础之Hive环境搭建

Hive默认元数据信息存储在Derby里,Derby内置的关系型数据库.单Session的(只支持单客户端连接,两个客户端连接过去会报错): Hive支持将元数据存储在关系型数据库中,比如:Mysql/Oracle: 本案例采用的是将hive的元数据存储在MySQL中,故需要先安装MySQL数据库,使用的是CentOS6.4版本. MySQL安装采用yum安装方式安装: yum install mysql #安装mysql客户端 yum install mysql-server #安装mysq

Hive基础之各种排序的区别

order by 1.order by会对输入做全局排序,因此只有一个reducer(多个reducer无法保证全局排序): 只有一个reducer会导致当输入规模较大时,需要较长的计算时间,速度很非常慢: 2.hive.mapred.mode(默认值是nonstrict)对order by的影响 1)当hive.mapred.mode=nonstrict时,order by和关系型数据库中的order by功能一致,按照指定的某一列或多列排序输出: 2)当hive.mapred.mode=st

hive基础2

RDBMS OLTP. relation database management system,关系型数据库管理系统. 支持事务(acid) 延迟低安全行 V variaty : 多样性. hive mr,sql 开发效率高. 数据仓库. 数据库: //OLTP OLTP //online transaction process, OLAP //online analyze process,在线分析处理 , 很多分析函数 //rank | lag | lead | .. | cube | ro

hive基础1

Hive基础 1.介绍 Hive是OLAP(online analyze process,在线分析处理).通常称为数据仓库,简称数仓.内置很多分析函数,可进行海量数据的在线分析处理.hive构建在hadoop之上,使用hdfs作为进行存储,计算过程采用的是Mapreduce完成,本质上hive是对hadoop的mr的封装,通过原始的mr方式进行数据处理与分析,往往效率较低,而且具有相当的复杂度,学习曲线较长.hive常用传统的sql方式作为操作手段,极大的降低了学习曲线,毕竟大部分人对sql还是

[转帖]Hive基础（一）

Hive基础(一) 2018-12-19 15:35:03 人间怪物阅读数 234 版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/qq_41975699/article/details/85044696 1.Hive是什么 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射成为一张数据库表,并提供类SQL的查询功能.可以将sql语句转化为MapReduce任务进行

01hive基础操作

一. Hive基础概念 1.什么是Hive Hive:由 Facebook 开源用于解决海量结构化日志的数据统计. Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类 SQL 查询功能. 本质是:将 HQL 转化成 MapReduce 程序. 1)Hive 处理的数据存储在 HDFS 2)Hive 分析数据底层的默认实现是 MapReduce 3)执行程序运行在 Yarn 上 2.优缺点 2.1 优点 1) 操作接口采用类 SQL 语法,提供快速开发

vsphere基础操作-网络

一.vsphere网络操作概念: portgroup:通信端口组.在vsphere中,一共包含三种端口组. 1)管理网络:management network,可以理解为EXSI主机的管理IP地址.每个EXSI必须配置一个管理网络IP,使得vc能够管理到exsi.每个EXSI只能有一个唯一的管理网络. 2)内核:vmkernel,可以理解为EXSI的后端IP,使得后端各项功能能够实现.这里所说的后端功能指的是EXSI之间的通讯以实现VMOTION等高级功能.连入ISCSI或NAS等存储.FT功