Hive基础之Hive环境搭建

Hive默认元数据信息存储在Derby里，Derby内置的关系型数据库、单Session的（只支持单客户端连接，两个客户端连接过去会报错）；

Hive支持将元数据存储在关系型数据库中，比如：Mysql/Oracle；

本案例采用的是将hive的元数据存储在MySQL中，故需要先安装MySQL数据库，使用的是CentOS6.4版本。

MySQL安装

采用yum安装方式安装：

yum install mysql     #安装mysql客户端
yum install mysql-server  #安装mysql服务端

判断MySQL是否已经安装好：

chkconfig --list|grep mysql

启动mysql服务：

service mysqld start或者/etc/init.d/mysqld start

检查是否启动mysql服务：

/etc/init.d/mysqld status

设置MySQL开机启动：

chkconfig mysqld on

检查设置MySQL开机启动是否配置成功：

chkconfig --list|grep mysql

显示2 3 4 5为on表示开机启动配置成功

创建MySQL的root管理员帐号：

mysqladmin -uroot password root

登录MySQL

mysql -uroot -proot

Hive安装

安装依赖

Hive安装所需要的依赖：

1）JDK6以上；

2）Hadoop安装完毕；

安装版本

hive-0.12.0-cdh5.0.0.tar.gz

下载地址：http://archive.cloudera.com/cdh5/cdh/5/

一般hive是安装在NameNode上

安装步骤

1）解压

tar -zxvf hive-0.12.0-cdh5.0.0.tar.gz -C /app

2）修改Hive配置文件

cd /app/hive-0.12.0-cdh5.0.0/conf
cp hive-env.sh.template hive-env.sh
vi hive-env.shHADOOP_HOME=/app/hadoop-2.3.0-cdh5.0.0 #多hadoop集群中需要手工指向你需要的hadoop集群
export HIVE_CONF_DIR=/app/hive-0.12.0-cdh5.0.0/conf #多hive集群中需要手工指向安装hive的conf目录

hive-site.xml配置成如下

如果hive-site.xml文件不存在，则从hive-default.xml.template拷贝一份

cp hive-default.xml.template hive-site.xml

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>
    <property>
      <name>javax.jdo.option.ConnectionURL</name>
      <value>jdbc:mysql://localhost:3306/hive?createDatabaseIfNotExist=true</value>
    </property>

<property>
      <name>javax.jdo.option.ConnectionDriverName</name>
      <value>com.mysql.jdbc.Driver</value>
    </property>

    <property>
      <name>javax.jdo.option.ConnectionUserName</name>
      <value>root</value>
    </property>

    <property>
      <name>javax.jdo.option.ConnectionPassword</name>
      <value>root</value>
    </property>
</configuration>

注意：此处的hive数据库不需要手工创建，在hive正常启动后，会自动创建hive数据库；hive启动成功会在mysql的hive数据库中自动创建一系列的表；

hive默认数据存储的目录是: /user/hive/warehouse，也可以手工指定

<property>
　　<name>hive.metastore.warehouse.dir</name>
　　<value>/user/hive/warehouse</value>
</property>

3）拷贝mysql驱动包到hive/lib

cp /home/hadoop/software/mysql-connector-java-5.1.17-bin.jar /app/hive-0.12.0-cdh5.0.0/lib/

4）为用户分配权限

在mysql中执行如下命令：

grant all on hive.* to [email protected]‘%‘ identified by ‘root‘ WITH GRANT OPTION ;

意思是hive数据库中的任何对象都给任意主机的root用户以密码为root的方式远程访问。

5）配置环境变量

配置HIVE_HOME以及将$HIVE_HOME/bin添加到path中，方便操作

6）启动

在linux命令行执行：hive 因为已经将$HIVE_HOME/bin添加到bin中，所以直接使用hive即可

补充：

A）hive指定日志级别方式启动：

hive --hiveconf hive.root.logger=DEBUG,console

B）启动hive远程访问（thriftserver方式），比如java代码调用hive

hive --service hiveserver &

C）浏览器访问方式

在hive-site.xml中添加

<property>
  <name>hive.hwi.war.file</name>
  <value>lib/hive-hwi-0.12.0-cdh5.0.0.jar</value>
</property>

启动Hive的UI

hive --service hwi

浏览器访问：http://hostname:9999/hwi

Hive常用命令

先介绍几个Hive常用的命令，后续会详细介绍各种命令的用法

查看所有数据库： show databases

切换到hive数据库： use hive

显示hive数据库下的所有表： show tables

创建表： create table test(id int, name string)

查看表结构。仅包含字段信息： desc table_name

查看表结构详细信息。不仅包含字段信息，还包含存储路径等信息: desc extended table_name

查看function: desc function function_name

Hive基础之Hive环境搭建,布布扣,bubuko.com

时间： 2024-10-01 06:53:00

Hive基础之Hive环境搭建的相关文章

Apache Spark源码走读之12 -- Hive on Spark运行环境搭建

欢迎转载,转载请注明出处,徽沪一郎. 楔子 Hive是基于Hadoop的开源数据仓库工具,提供了类似于SQL的HiveQL语言,使得上层的数据分析人员不用知道太多MapReduce的知识就能对存储于Hdfs中的海量数据进行分析.由于这一特性而收到广泛的欢迎. Hive的整体框架中有一个重要的模块是执行模块,这一部分是用Hadoop中MapReduce计算框架来实现,因而在处理速度上不是非常令人满意.由于Spark出色的处理速度,有人已经成功将HiveQL的执行利用Spark来运行,这就是已经非常

Hive基础之Hive体系架构&运行模式&Hive与关系型数据的区别

Hive架构 1)用户接口: CLI(hive shell):命令行工具:启动方式:hive 或者 hive --service cli ThriftServer:通过Thrift对外提供服务,默认端口是10000:启动方式:hive --service hiveserver WEBUI(浏览器访问hive):通过浏览器访问hive,默认端口是9999:启动方式:hive --service hwi 2)元数据存储(Metastore):启动方式:hive -service metastore

Hive基础之Hive的存储类型

Hive常用的存储类型有: 1.TextFile: Hive默认的存储类型:文件大占用空间大,未压缩,查询慢: 2.Sequence File: 3.RCFile:facebook开发的一个集行存储和列存储的优点于一身,压缩比更高,读取列更快,它在mr环境中大规模数据处理中扮演着重要的角色:是一种行列存储相结合的存储方式,首先它将数据按行分块,保证同一个record在一个块中,避免读取一个记录需要读取多个record:一般情况下,hive表推荐使用RCFile: RCFile案例: 创建表: c

Hive基础之Hive是什么以及使用场景

Hive是什么1)Hive 是建立在Hadoop (HDFS/MR)上的用于管理和查询结果化/非结构化的数据仓库:2)一种可以存储.查询和分析存储在Hadoop 中的大规模数据的机制:3)Hive 定义了简单的类SQL 查询语言,称为HQL,它允许熟悉SQL 的用户查询数据:4)允许用Java开发自定义的函数UDF来处理内置无法完成的复杂的分析工作:5)Hive没有专门的数据格式(分隔符等可以自己灵活的设定): ETL的流程(Extraction-Transformate-Loading):将关

Hive基础之Hive表常用操作

本案例使用的数据均来源于Oracle自带的emp和dept表创建表语法: CREATE [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name [(col_name data_type [COMMENT col_comment], ...)] [COMMENT table_comment] [PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)] [CLUSTERED

Hive基础之Hive的复杂类型

Array 一组有序字段,字段的类型必须相同.Array(1,2) create table hive_array(ip string, uid array<string>) row format delimited fields terminated by ',' collection items terminated by '|' stored as textfile; load data local inpath "/home/spark/software/data/hive_

JAVA基础学习——1.环境搭建（系统Win10，64bit）

大学里虽然老师教过JAVA,但我没学.后来工作了,断断续续的也碰到了JAVA的项目,都是拉过来就干的节奏.也没有好好系统的学习一下. 从今天开始系统学习整理一下JAVA,以后再碰到JAVA项目的时候,心里也踏实点.咱也是正儿八经学过的人了,发发博客就当做个笔记,有不足的地方,大家多多指点,先在这里谢谢大家. 1. 环境搭建第一步,安装JDK. JDK 是Java开发工具包 (Java Development Kit ) 的缩写. JDK 是一系列工具的集合,这些工具是编译Java源码.运行Ja

Elasticsearch技术解析与实战（一）基础概念及环境搭建

基础概念 Elasticsearch是一个近实时的系统,从你写入数据到数据可以被检索到,一般会有1秒钟的延时.Elasticsearch是基于Lucene的,Lucene的读写是两个分开的句柄,往写句柄写入的数据刷新之后,读句柄重新打开,这才能读到新写入的数据. 名词解释: Cluster:集群. Index:索引,Index相当于关系型数据库的DataBase. Type:类型,这是索引下的逻辑划分,一般把有共性的文档放到一个类型里面,相当于关系型数据库的table. Document:文档,

CNN基础及开发环境搭建（综合参考）

CNN基础及环境搭建 Author:王帅:Mail:[email protected] 目前,深度学习在解决图像分类,语音识别等问题上获得了已知的最优结果,该系列算法越来越受到学术界和工业界的重视.何为深度学习?一个直观的解释是如果一个机器学习算法在建模的过程中使用了多层的自动特征表示,则该机器学习算法可以称之为深度学习算法,也就是该机器学习算法可以自动地计算特征的特征表示.而卷积神经网络(以下简称为CNN)则是深度学习中最基础且有效的算法,CNN虽然最早由KunihikoFukushima提出