Hive on Spark安装与配置(无数坑)

一、版本如下
    注意:Hive on Spark对版本有着严格的要求,下面的版本是经过验证的版本

  • apache-hive-2.3.2-bin.tar.gz
  • hadoop-2.7.2.tar.gz
  • jdk-8u144-linux-x64.tar.gz
  • mysql-5.7.19-1.el7.x86_64.rpm-bundle.tar
  • mysql-connector-java-5.1.43-bin.jar
  • spark-2.0.0.tgz(spark源码包,需要从源码编译)
  • Redhat Linux 7.4 64位

二、安装Linux和JDK、关闭防火墙

三、安装和配置MySQL数据库

          1、解压MySQL安装包

         2、安装MySQL

yum remove mysql-libs
                 rpm -ivh mysql-community-common-5.7.19-1.el7.x86_64.rpm
                 rpm -ivh mysql-community-libs-5.7.19-1.el7.x86_64.rpm
                 rpm -ivh mysql-community-client-5.7.19-1.el7.x86_64.rpm
                 rpm -ivh mysql-community-server-5.7.19-1.el7.x86_64.rpm
                 rpm -ivh mysql-community-devel-5.7.19-1.el7.x86_64.rpm  (可选)

         3、启动MySQL

systemctl start mysqld.service

4、查看并修改root用户的密码

查看root用户的密码:cat /var/log/mysqld.log | grep password
                   登录后修改密码:alter user 'root'@'localhost' identified by 'Welcome_1';

         5、创建hive的数据库和hiveowner用户   

(*)创建一个新的数据库:create database hive;
                  (*)创建一个新的用户:
                           create user 'hiveowner'@'%' identified by ‘Welcome_1’;
                  (*)给该用户授权
                           grant all on hive.* TO 'hiveowner'@'%';
                           grant all on hive.* TO 'hiveowner'@'localhost' identified by 'Welcome_1';

四、安装Hadoop(以伪分布式为例)

       由于Hive on Spark默认支持Spark on Yarn的方式,所以需要配置Hadoop。

       1、准备工作:

(*)配置主机名(编辑/etc/hosts文件)

(*)配置免密码登录

         2、Hadoop的配置文件如下:

           3、启动Hadoop:

start-all.sh

           4、通过Yarn Web Console检查是否为公平调度原则

五、编译Spark源码、并配置Spark

(需要使用Maven,Spark源码包中自带Maven)

         1、执行下面的语句进行编译

(执行时间很长,耐心等待)

./dev/make-distribution.sh --name "hadoop2-without-hive" --tgz "-Pyarn,hadoop-provided,hadoop-2.7,parquet-provided"

        2、编译成功后

会生成:spark-2.0.0-bin-hadoop2-without-hive.tgz

          3、安装和配置Spark

                   (*)目录结构如下:

                  (*)将下面的配置加入spark-env.sh

(*)export JAVA_HOME=/root/training/jdk1.8.0_144

(*)export HADOOP_CONF_DIR=/root/training/hadoop-2.7.2/etc/hadoop

(*)export YARN_CONF_DIR=/root/training/hadoop-2.7.2/etc/hadoop

(*)export SPARK_MASTER_HOST=hive77

(*)export SPARK_MASTER_PORT=7077

(*)export SPARK_EXECUTOR_MEMORY=512m

(*)export SPARK_DRIVER_MEMORY=512m

(*)export SPARK_WORKER_MEMORY=512m

                  (*)将hadoop的相关jar包放入spark的lib目录下,如下:

                  (*)在HDFS上创建目录:spark-jars,并将spark的jars上传至该目录。

这样在运行Application的时候,就无需每次都分发这些jar包。

hdfs dfs -mkdir /spark-jars
                         hdfs dfs -put jars/*.jar /spark-jars

                 (*) 启动Spark:sbin/start-all.sh,验证Spark是否配置成功

六、安装配置Hive

        (*)解压Hive安装包,并把mysql的JDBC驱动放到HIve的lib目录下,如下图:

       (*)设置Hive的环境变量

HIVE_HOME=/root/training/apache-hive-2.3.2-bin
                 export HIVE_HOME
                 PATH=$HIVE_HOME/bin:$PATH
                 export PATH

       (*)拷贝下面spark的jar包到Hive的lib目录

       (*)在HDFS上创建目录:/sparkeventlog用于保存log信息

hdfs dfs -mkdir /sparkeventlog

       (*)配置hive-site.xml,如下:

       (*)初始化MySQL数据库:schematool -dbType mysql -initSchema

       (*)启动hive shell,并创建员工表,用于保存员工数据

       (*)导入emp.csv文件:

load data local inpath '/root/temp/emp.csv' into table emp1;

       (*)执行查询,按照员工薪水排序:(执行失败)

       (*)检查Yarn Web Console

       (*)重启:Hadoop、Spark、Hive,并执行查询

                最后说明一下:由于配置好了Spark on Yarn,我们在执行Hive的时候,可以不用启动Spark集群,因为此时都有Yarn进行管理。

原文地址:http://blog.51cto.com/collen7788/2058501

时间: 2024-11-06 03:51:30

Hive on Spark安装与配置(无数坑)的相关文章

Hive 教程(一)-安装与配置解析

安装就安装 ,不扯其他的 hive 依赖 在 hive 安装前必须具备如下条件 1. 一个可连接的关系型数据库,如 Mysql,postgresql 等,用于存储元数据 2. hadoop,并启动 hdfs 3. HBase,非必须,但是如果不装,会有警告,不过不影响使用 4. java,1.8 以上版本 准备工作 1. 下载安装包 https://mirrors.tuna.tsinghua.edu.cn/apache/hive/ 清华镜像,下载速度快 http://apache.org/dis

Tomcat8.5安装与配置的坑

本文只是单纯记录一下tomcat配置的坑! 1.下载官网:https://tomcat.apache.org/下载后解压到根目录,盘符任意.但必须有jdk,本人用的是jdk1.8 2.配置环境变量在classpath这个变量中加入E:\apache-tomcat-8.5.31\bin;没有就新建一个classpath变量名 3.启动Tomcat进入Tomcat中bin目录,双击startup.bat 上图界面代表启动成功,成功后不要关闭,否则就关掉了Tomcat. 测试Tomcat是否启动成功:

Spark安装和配置

hadoop2的安装教程 Spark可以直接安装在hadoop2上面,主要是安装在hadoop2的yarn框架上面 安装Spark之前需要在每台机器上安装Scala,根据你下载的Spark版本,选择对应的Scala和jdk Scala的安装就是解压缩,然后配置环境变量,将Scala的执行命令配置到Path上. Spark的安装和Scala一样,但是Spark还需要对配置文件进行配置 这里给出环境配置:/etc/profile文件 export JAVA_HOME=/usr/local/jdk1.

即时通信Spark安装和配置

spark:Cross-platform real-time collaboration client optimized for business and organizations.Spark is a full-features instant messaging (IM) and groupchat client that uses the XMPP protocol. 下载地址:http://www.igniterealtime.org/downloads/index.jsp Spar

spark 2.0.0集群安装与hive on spark配置

1. 环境准备: JDK1.8 hive 2.3.4 hadoop 2.7.3 hbase 1.3.3 scala 2.11.12 mysql5.7 2. 下载spark2.0.0 cd /home/worksapce/software wget https://archive.apache.org/dist/spark/spark-2.0.0/spark-2.0.0-bin-hadoop2.7.tgz tar -xzvf spark-2.0.0-bin-hadoop2.7.tgz mv spa

hive安装以及hive on spark

spark由于一些链式的操作,spark 2.1目前只支持hive1.2.1 hive 1.2安装 到http://mirror.bit.edu.cn/apache/hive/hive-1.2.1/ 网址下载hive1.2.1的部署包 2.配置系统环境变量/etc/profile export HIVE_HOME=/opt/hive-1.2.1 export PATH=$PATH:$HIVE_HOME/bin source /etc/profile 使刚刚的配置生效 3. 解压 tar -xvf

大数据技术之_08_Hive学习_01_Hive入门+Hive安装、配置和使用+Hive数据类型

第1章 Hive入门1.1 什么是Hive1.2 Hive的优缺点1.2.1 优点1.2.2 缺点1.3 Hive架构原理1.4 Hive和数据库比较1.4.1 查询语言1.4.2 数据存储位置1.4.3 数据更新1.4.4 索引1.4.5 执行1.4.6 执行延迟1.4.7 可扩展性1.4.8 数据规模第2章 Hive安装.配置和使用2.1 Hive安装地址2.2 Hive安装部署2.3 将本地文件导入Hive案例2.4 MySql安装2.4.1 安装包准备2.4.2 安装MySql服务器2.

Hive安装与配置

Hive安装配置详解 本文主要是在Hadoop单机模式中演示Hive默认(嵌入式Derby模式)安装配置过程. 1.下载安装包 到官方网站下载最新的安装包,这里以Hive-0.12.0为例: $ tar -zxf hive-0.12.0-bin.tar.gz -C /home/ubuntu/hive-0.12.0 在这里,HIVE_HOME=" /home/ubuntu/hive-0.12.0". 2.设置环境变量 gedit /etc/profile,添加如下内容: export H

Hadoop那些事儿(五)---Hive安装与配置

我在安装Hive的过程中遇到了好多问题,捣鼓了好久,所以下面的有些操作可能不是必要的操作. 1.配置YARN YARN 是从 MapReduce 中分离出来的,负责资源管理与任务调度.YARN 运行于 MapReduce 之上,提供了高可用性.高扩展性. 伪分布式环境不启动YARN也可以,一般不影响程序运行,所以在前边的Hadoop安装与配置中没有配置YARN. 我在安装Hive的过程中,由于一个异常牵扯到了yarn下的jar,所以我觉得还是有必要先把yarn配置一下(这步可能不是必要的) 找到