Hive数据仓库工具安装

一.Hive介绍

Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单SQL查询功能,SQL语句转换为MapReduce任务进行运行。 优点是可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。缺点是Hive不适合在大规模数据集上实现低延迟快速的查询。

二.安装Hive

环境:Docker(17.04.0-ce)、镜像Ubuntu(16.04.3)、JDK(1.8.0_144)、Hadoop(3.1.1)、Hive(3.1.0)

1.安装Hadoop
参考:Hadoop伪分布式模式安装

2.使用root安装MySQL

[email protected]:~# apt-get install -y mysql-server
[email protected]-bd:~# /etc/init.d/mysql start

3.切换用户bigdata,解压Hive

[email protected]:~# su - bigdata
[email protected]-bd:~$ tar -xf apache-hive-3.1.0-bin.tar.gz

4.Hive依赖Hadoop,编辑.bashrc文件,添加环境变量
export HADOOP_HOME=/home/bigdata/hadoop-3.1.1

5.激活环境变量
[email protected]:~$ source .bashrc

6.启动Hdfs服务
[email protected]:~$ hadoop-3.1.1/sbin/start-dfs.sh

7.启动Yarn服务
[email protected]:~$ hadoop-3.1.1/sbin/start-yarn.sh

8.创建Hive数据仓库存储目录(/tmp已存在则跳过创建)

[email protected]:~$ hadoop-3.1.1/bin/hdfs dfs -mkdir -p /tmp
[email protected]-bd:~$ hadoop-3.1.1/bin/hdfs dfs -chmod g+w /tmp
[email protected]-bd:~$ hadoop-3.1.1/bin/hdfs dfs -mkdir -p /user/hive/warehouse
[email protected]-bd:~$ hadoop-3.1.1/bin/hdfs dfs -chmod g+w /user/hive/warehouse

9.新建conf/hive-site.xml文件,并增加如下配置项

<configuration>
    <property>
        <name>javax.jdo.option.ConnectionURL</name>
        <value>jdbc:mysql://localhost:3306/hive?useSSL=false&amp;createDatabaseIfNotExist=true</value>
    </property>
    <property>
        <name>javax.jdo.option.ConnectionDriverName</name>
        <value>com.mysql.jdbc.Driver</value>
    </property>
    <property>
        <name>javax.jdo.option.ConnectionUserName</name>
        <value>root</value>
    </property>
    <property>
        <name>javax.jdo.option.ConnectionPassword</name>
        <value>password</value>
    </property>
</configuration>

10.下载mysql-connector驱动包,并移动到lib目录下

[email protected]:~$ mv mysql-connector-java-5.1.47.jar apache-hive-3.1.0-bin/lib/

11.初始化metastore元数据库
[email protected]:~$ apache-hive-3.1.0-bin/bin/schematool -dbType mysql -initSchema 

三.运行Hive

1.命令行运行Hive
[email protected]:~$ apache-hive-3.1.0-bin/bin/hive 

2.Beeline运行Hive
修改etc/hadoop/core-site.xml文件,增加如下配置项

    <property>
        <name>hadoop.proxyuser.bigdata.hosts</name>
        <value>*</value>
    </property>
    <property>
        <name>hadoop.proxyuser.bigdata.groups</name>
        <value>*</value>
    </property>

重启hadoop服务

[email protected]:~$ hadoop-3.1.1/sbin/stop-dfs.sh
[email protected]-bd:~$ hadoop-3.1.1/sbin/start-dfs.sh

启动hiveserver2服务
[email protected]:~$ nohup apache-hive-3.1.0-bin/bin/hive --service hiveserver2 & 
启动beeline连接hive
[email protected]:~$ apache-hive-3.1.0-bin/bin/beeline -u jdbc:hive2://localhost:10000 

四.运行异常

1.运行Hive异常
异常FAILED: HiveException java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient

原因是metastore元数据库没有初始化
使用schematool命令初始化metastore数据库
[email protected]:~$ apache-hive-3.1.0-bin/bin/schematool -dbType mysql -initSchema

2.初始化metastore异常
异常org.apache.hadoop.hive.metastore.HiveMetaException: Failed to load driver

原因Hive的lib目录下无MySQL驱动包
下载mysql-connector驱动包,并移动到lib目录下
[email protected]:~$ mv mysql-connector-java-5.1.47.jar apache-hive-3.1.0-bin/lib/

3.beeline连接异常
异常User: bigdata is not allowed to impersonate anonymous (state=08S01,code=0)
原因不允许匿名用户访问,需要配置etc/hoaddop/core-site.xml文件,增加如下配置项,proxyuser后为代理用户(bigdata)

    <property>
        <name>hadoop.proxyuser.bigdata.hosts</name>
        <value>*</value>
    </property>
    <property>
        <name>hadoop.proxyuser.bigdata.groups</name>
        <value>*</value>
    </property>

原文地址:https://www.cnblogs.com/faramita2016/p/9304421.html

时间: 2024-10-11 03:44:16

Hive数据仓库工具安装的相关文章

Hive --数据仓库工具

Hive–数据仓库工具 1.Hive核心架构 2.Hive开发环境和使用方式 3.Hive核心原理解析 4.核心概念 5.HQL查询详解 6.Hive批处理脚本开发 7.Hive函数详解 8.高级特性与调优 原文:大专栏  Hive --数据仓库工具 原文地址:https://www.cnblogs.com/chinatrump/p/11597075.html

基于hadoop的数据仓库工具:Hive概述

Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行.其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析. Hive是建立在 Hadoop 上的数据仓库基础构架.它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储.查询和分析存储在 Hadoop 中的大规模数据的机

(第7篇)灵活易用易维护的hadoop数据仓库工具——Hive

摘要: Hive灵活易用且易于维护,十分适合数据仓库的统计分析,什么样的结构让它具备这些特性?我们如何才能灵活操作hive呢? 博主福利 给大家推荐一套hadoop视频课程 [百度hadoop核心架构师,首次内部分享的企业级项目视频,价值3980元] 免费赠送100份,先到先得.联系老师微信ganshiyu1026,备注OSchina. 部分视频截图展示 Hive hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,Hive 定义了

Hadoop系列之Hive(数据仓库)安装配置

Hadoop系列之Hive(数据仓库)安装配置1.在NameNode安装  cd /root/soft  tar zxvf apache-hive-0.13.1-bin.tar.gz   mv apache-hive-0.13.1-bin /usr/local/hadoop/hive2. 配置环境变量(每个节点都需要增加) 打开/etc/profile #添加以下内容: export HIVE_HOME=/usr/local/hadoop/hive export PATH=$HIVE_HOME/

Hive介绍、安装(转)

1.Hive介绍 1.1 Hive介绍 Hive是一个基于Hadoop的开源数据仓库工具,用于存储和处理海量结构化数据.它是Facebook 2008年8月开源的一个数据仓库框架,提供了类似于SQL语法的HQL语句作为数据访问接口,Hive有如下优缺点: l  优点: 1.Hive 使用类SQL 查询语法, 最大限度的实现了和SQL标准的兼容,大大降低了传统数据分析人员学习的曲线: 2.使用JDBC 接口/ODBC接口,开发人员更易开发应用: 3.以MR 作为计算引擎.HDFS 作为存储系统,为

Hive本地模式安装及遇到的问题和解决方案

Apache Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行. 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析. Hive有三种运行模式: 1.内嵌模式:将元数据保存在本地内嵌的Derby数据库中,这得使用Hive最简单的方式,不过使用内嵌模式的话,缺点也比较明显,因为一个内嵌的D

linux mini模式下如何制作本地yum源,并用远程工具安装 vim

linux mini模式下如何制作本地yum源,并用远程工具安装 vim 打开虚拟机 启动centos 系统 点右下角的光盘图标 出现连接(或是断开).设置,下拉菜单,选择 "设置" 在虚拟机设置对话框内如图所示 [[email protected] ~]# vim -bash: /usr/bin/vim: 没有那个文件或目录 光盘挂载: 查看系统中所有的挂载信息 [[email protected] ~]# mount /dev/sda3 on / type ext4 (rw) pr

Ubuntu下面有adb工具安装和卸载apk包

今天在Ubuntu下面使用adb安装软件包(成功):/sdk/platform-tools$ ./adb install    ~/Downloads/com.douban.book.reader_31.apk 2271 KB/s (21646370 bytes in 9.304s) pkg: /data/local/tmp/com.douban.book.reader_31.apk Success 后面尝试adb卸载出问题拉,提示Failure/sdk/platform-tools$ ./ad

Oracle 客户端安装 + pl/sql工具安装配置

Oracle 客户端安装 +  pl/sql工具安装配置 下载oracle客户端,并在本地安装. 11g下载地址为: http://www.oracle.com/technetwork/database/enterprise-edition/downloads/index.html 10g下载地址为: http://www.oracle.com/technetwork/database/enterprise-edition/downloads/index.html 根据自己机器或者oracle服