CDH5上安装Hive,HBase,Impala,Spark等服务

Apache Hadoop的服务的部署比较繁琐,需要手工编辑配置文件、下载依赖包等。Cloudera Manager以GUI的方式的管理CDH集群,提供向导式的安装步骤。由于需要对Hive,HBase,Impala,Spark进行功能测试,就采用了Cloudera Manager方式进行安装。

Cloudera Manager提供两种软件包安装源,Package 和 Parcel:

Package就是一个个rpm文件,以yum的方式组织起来。

Parcel是rpm包的压缩格式,以.parcel结尾,所有的rpm压缩在一个文件中,方便下载和分发,使用manifest.json文件对parcel文件进行描述,将parcel文件保存到局域网内的Web服务器上,安装过程中就不需要从互联网上下载文件了,实现了离线安装。

一、安装前准备工作

安装Hive,HBase,Impala,Spark之前,Cloudera Manager应该已经安装好了,参见:本地Yum软件源安装Cloudera Manager 5 这篇文章,使用的操作系统为 CentOS6.5 ,CM版本为 5.0.2 ,采用parcel包方式安装,

1、下载安装中需要的文件:

从 http://archive.cloudera.com/cdh5/parcels/5.0.2.13/ 下载如下的文件,保存到Web服务器的 /var/www/html/cdh5/parcels/latest 目录 :

[[email protected] latest]# pwd
/var/www/html/cdh5/parcels/latest
[[email protected] latest]# ll
total 1793948
-rw-r--r-- 1 root root 1836961055 Jun 15 06:51 CDH-5.0.2-1.cdh5.0.2.p0.13-el6.parcel
-rw-r--r-- 1 root root      33190 Jun 15 09:04 manifest.json

从 http://archive-primary.cloudera.com/redhat/cdh/ 下载:RPM-GPG-KEY-cloudera,这是对rpm包进行校验的文件,保存到Web服务器的 /var/www/html/redhat/cdh 目录:

[[email protected] cdh]# pwd
/var/www/html/redhat/cdh
[[email protected] cdh]# ll
total 4
-rw-r--r-- 1 root root 1690 Jun 16 07:32 RPM-GPG-KEY-cloudera
[[email protected] cdh]# 

2、准备安装的服务器

测试环境一共使用了六台服务器,列表如下:

服务器列表
ip地址 hostname 描述信息
172.16.230.140 archive.cloudera.com 本地web服务器
172.16.230.141 cm.worker.com CM,管理节点
172.16.230.151 h1.worker.com 节点1
172.16.230.152 h2.worker.com 节点2
172.16.230.153 h3.worker.com 节点3
172.16.230.154 h4.worker.com 节点4

所有的服务器上安装CentOS6.5,并关闭防火墙、selinux、保持时间一致。保持所有的root用户密码一致。一个Hadoop集群中的节点最少为三台,本测试环境的节点为四台,上面的ip地址需要根据自已的网络情况进行调整,这是我搭建的虚拟机的IP。

3、在web服务器上发布CentOS6.5安装盘文件

安装过程中,需要从CentOS6.5安装盘上读取一些rpm包,需要将安装盘发布为本地yum源。将安装盘挂载到web服务器,并添加软连接到web目录,web服务器上的web根目录如下:

[[email protected] html]# pwd
/var/www/html
[[email protected] html]# ll
total 12
drwxr-xr-x 3 root root 4096 Jun 15 06:48 cdh5
lrwxrwxrwx 1 root root   24 Jun 20 08:12 centos_media -> /media/CentOS_6.5_Final/
drwxr-xr-x 3 root root 4096 Jun 14 10:04 cm5
drwxr-xr-x 3 root root 4096 Jun 16 07:29 redhat

4、创建 hosts 和 yum配置文件

创建hosts文件,保存到所有服务器的 /etc/hosts ,内容如下:

127.0.0.1   localhost localhost.localdomain localhost4 localhost4.localdomain4
::1         localhost localhost.localdomain localhost6 localhost6.localdomain6

172.16.230.140 archive.cloudera.com
172.16.230.141 cm.worker.com
172.16.230.151 h1.worker.com
172.16.230.152 h2.worker.com
172.16.230.153 h3.worker.com
172.16.230.154 h4.worker.com

创建 myrepo.repo 文件,保存到所有服务器的 /etc/yum.repos.d 目录,内容如下:

[myrepo]
name=myrepo
baseurl=http://172.16.230.140/cm5/redhat/6/x86_64/cm/5/
enabled=1
gpgcheck=0

创建 CentOS-Media.repo 文件,保存到所有服务器的 /etc/yum.repos.d 目录,内容如下:

[c6-media]
name=CentOS-$releasever - Media
baseurl=http://172.16.230.140/centos_media
gpgcheck=0
enabled=1
exclude = jdk*

注意, /etc/yum.repos.d 目录,仅存在  myrepo.repo 和  CentOS-Media.repo  两个文件.

5、cm.worker.com 上安装 PostgreSQL

Hive需要使用一个关系数据库作为Metastore数据库,使用嵌入式数据库存在性能问题,需要在cm.worker.com 上安装一个PostgreSQL数据库,创建用户hiveuser,创建数据库 hivedb,指定数据库拥有者为hiveuser,详细过程可以参见这篇文章:PostgreSQL新手教程

二、图解Hive,HBase,Impala,Spark 的安装和配置

做了上面的准备工作后,登录CM5就可以开始安装了,安装过程大部分情况下都不需要修改默认值,需要修改的地方会以文字说明,下面是安装过程的截图,

1、登录CM5

2、选择Cloudera Express

3、可供选择的安装包列表

4、为CDH集群指定主机

输入 172.16.230.[151-154] ,根据自已网络情况进行调整,然后点击搜索。

5、进入添加主机向导

使用parcel安装方式,parcel下载路径不用修改,已经发布在本地web服务器中了。

不需要java加密,保留默认值:

输入root的密码,所有节点的root密码是一致的。同时安装的数据默认为10,考虑到是虚拟机,修改为2。如果是真实服务器,请保留默认值为10.

进行节点CM管理程序安装,如果出现问题,请检查hostname与ip地址配置是否正确。

下载和分配parcel包,由于parcel包有1.8G大小,执行时间较长,可以喝杯咖啡再回来。

主机安装完成:会对主机进行检查,有个 swappness 需要调整,如果是真实服务器,请将 swappness修改为0,尽量不使用交换分区。

6、进入添加服务向导:

选饿所有服务

保持默认的节点角色配置:

选择自定义数据库,填写连接信息,并点击测试连接按钮:

添加服务的详细配置,保留默认值:

首次启动服务的时间比较长,大概二十分钟:

添加服务完成:

点击完成后,就进入了CM管理的首页了。

7、进入CM首页

三、小结

本文描述的hadoop安装方式是一种离线方式,通过CM5加快了环境搭建的速度,CM5将hadoop集群管理的复杂度大大降低。后面在测试中学习hadoop集群的调优。

原创作品,转载请注明出处:http://blog.csdn.net/yangzhaohui168/article/details/33403555

CDH5上安装Hive,HBase,Impala,Spark等服务

时间: 2024-08-24 22:05:53

CDH5上安装Hive,HBase,Impala,Spark等服务的相关文章

在hadoop2.2上安装hive

折腾了大半天终于把hive安装在hadoop2.2上了,为了今后有可查阅的资料,这里记录下整个过程,如有不对的地方,敬请拍砖!(安装hive要稍微简单一点,因为只需要部署在一台机器上就可以了) 下载:hive-0.9.0.tar.gz 解压到某路径中, 首先,将解压出来的mysql-connector-java-5.1.22-bin.jar复制到/hive下的lib路径里 设置环境变量,修改/etc/profile HIVE_HOME=/opt/hive-0.13.1 HADOOP_CONF_D

在Virtual Box上安装linux系统,启动SSH服务

? 一.????在Virtual Box上创建虚拟机????1 二.????安装linux系统????6 三.????重新设置 root 的密码:????8 四.????启动ssh服务????8 五.????建立共享文件夹????9 ? ? 摘自以下网页内容: 如何在Virtual Box上安装linux系统 : http://jingyan.baidu.com/album/2009576197fd24cb0721b409.html?picindex=1 Linux终端得到root权限 :htt

在集群上安装Hive

1.先决条件 要求必须已经安装完成Hadoop,Hadoop的安装在之前的博文<VMware下Hadoop 2.4.1完全分布式集群平台安装与设置>有详细介绍过. 2.下载Hive安装包 当前最新版本为0.13.1,可以到官网下载最新版,下载地址为:http://archive.apache.org/dist/hive/ 下载完之后,将安装包解压,执行命令: [email protected] :~/Installpackage$ sudo tar -zxvf apache-hive-0.13

在Ubuntu上安装Hive

1.下载hive2.3.5 解压缩并改名为hive目录,放到/usr/local下(注意权限) sudo mv apache-hive-2.3.5-bin /usr/local/hive 2.修改目录所有者 /usr/local/下的hive文件夹 sudo chown -R 用户名 /usr/local/hive 3.设置环境变量 (1)进入 sudo gedit ~/.bashrc #~/.bashrc #hive环境变量 export HIVE_HOME=/usr/local/hive e

在Windows 7上安装MySQL 5.6后没有服务,无法启动的问题

由于出差需要,今天在Mac OS X的Win 7虚拟机上安装了MySQL的最新版本:mysql-5.6.20-winx64.msi,结果发现安装完以后没有任何反应,开始菜单里面的CommandLine Shell也无法启动.虽然问题很简单,但估计会有很多朋友遇到类似问题,所以总结一下解决方案: 看网上有人介绍,在MySQL的安装目录下,例如我这里的:C:\Program Files\MySQL\MySQL Server 5.6\bin,其下有mysqld.exe这个可执行文件,可以安装服务.但是

使用Hive或Impala执行SQL语句,对存储在HBase中的数据操作

使用Hive或Impala执行SQL语句,对存储在HBase中的数据操作 Hive Impala HBase HiveQL 大数据 使用Hive或Impala执行SQL语句,对存储在HBase中的数据操作 〇.摘要 一.基础环境 二.数据存储在HBase中,使用Hive执行SQL语句 Ⅰ.创建Hive外部表 Ⅱ.从HBase读 Ⅲ.向HBase写 三.数据存储在HBase中,使用Impala执行SQL语句 Ⅰ.从HBase读 Ⅱ.向HBase写 四.综上所述 〇.摘要 Hive是基于Hadoop

SQL数据分析概览——Hive、Impala、Spark SQL、Drill、HAWQ 以及Presto+druid

转自infoQ! 根据 O'Reilly 2016年数据科学薪资调查显示,SQL 是数据科学领域使用最广泛的语言.大部分项目都需要一些SQL 操作,甚至有一些只需要SQL. 本文涵盖了6个开源领导者:Hive.Impala.Spark SQL.Drill.HAWQ 以及Presto,还加上Calcite.Kylin.Phoenix.Tajo 和Trafodion.以及2个商业化选择Oracle Big Data SQL 和IBM Big SQL,IBM 尚未将后者更名为"Watson SQL&q

Spark入门实战系列--5.Hive(上)--Hive介绍及部署

[注]该系列文章以及使用到安装包/测试数据 可以在<倾情大奉送--Spark入门实战系列>获取 1.Hive介绍 1.1 Hive介绍 Hive是一个基于Hadoop的开源数据仓库工具,用于存储和处理海量结构化数据.它是Facebook 2008年8月开源的一个数据仓库框架,提供了类似于SQL语法的HQL语句作为数据访问接口,Hive有如下优缺点: l  优点: 1.Hive 使用类SQL 查询语法, 最大限度的实现了和SQL标准的兼容,大大降低了传统数据分析人员学习的曲线: 2.使用JDBC

cdh 上安装spark on yarn

在cdh 上安装spark on yarn 还是比较简单的,不需要独立安装什么模块或者组件. 安装服务 选择on yarn 模式:上面 Spark 在spark 服务中添加 在yarn 服务中添加 getWay 后重新 启动服务端 用hdfs 用户进入 spark bin 目录 cd /opt/cloudera/parcels/CDH/lib/spark/bin 执行 ./spark-submit --class org.apache.spark.examples.SparkPi --maste