CDH 离线安装部署

CDH相关介绍: 

参考链接:

https://blog.csdn.net/u013061459/article/details/73368929

https://www.cnblogs.com/raphael5200/p/5293960.html

为了构建一个以数据为驱动的业务场景,我们需要一个强大的管理工具去统一并安全地管理我们的业务数据,Cloudera做为一个强大的数据中心管理工具为此孕育而生。Cloudera不光提供了自己衍化重新封装的市场领先并100%开源的商业化Apache Hadoop发行版本(CDH, Cloudera’s Distribution including Apache Hadoop)和相关的组件,其中包括了各类安全高效的企业级数据管理工具,如Hive, HBase,Oozie, Zookeeper等。 Hadoop是Apache(开源web服务器软件基金会)下的大数据开源项目,许多商业公司会在Apache Hadoop的基础上重新开发成商业版本,Cloudera公司就是其中之一,最近在维护的两个Hadoop版本分别是CDH4和CDH5。Hadoop使用分布式的思想存储,计算和分析数据,它允许多个数据分析计算任务同时作用在同一个数据块上并在集群上进行分布式计算,以此来进行超大规模数据的处理。Hadoop是大数据处理框架的鼻祖之一,同时Cloudera公司的Hadoop版本CDH也是目前使用最广泛的Hadoop商业版本。从广泛意义来说,CDH是Cloudera发布的一个自己封装的商业版软件发行包,里面不仅包含了Cloudera的商业版Hadoop,同时CDH中也包含了各类常用的开源数据处理存储框架,如Spark,Hive,HBase等。

Cloudera作为一个强大的商业版数据中心管理工具,提供了各种能够快速稳定运行的数据计算框架,如Apache Spark;使用Apache Impala做为对HDFS,HBase的高性能SQL查询引擎;也带了Hive数据仓库工具帮助用户分析数据; 用户也能用Cloudera管理安装HBase分布式列式NoSQL数据库;Cloudera还包含了原生的Hadoop搜索引擎以及Cloudera Navigator Optimizer去对Hadoop上的计算任务进行一个可视化的协调优化,提高运行效率;同时Cloudera中提供的各种组件能让用户在一个可视化的UI界面中方便地管理,配置和监控Hadoop以及其它所有相关组件,并有一定的容错容灾处理;Cloudera作为一个广泛使用的商业版数据中心管理工具更是对数据的安全决不妥协!

CDH能解决哪些问题?

  •   ? 1000台服务器的集群,最少要花费多长时间来搭建好Hadoop集群,包括Hive、Hbase、Flume、Kafka、Spark等等
  •   ? 只给你一天时间,完成以上工作?
  •   ? 对于以上集群进行hadoop版本升级,你会选择什么升级方案,最少要花费多长时间?
  •   ? 新版本的Hadoop,与Hive、Hbase、Flume、Kafka、Spark等等兼容?

CDH安装环境:

https://www.cloudera.com/documentation/enterprise/release-notes/topics/rn_consolidated_pcm.html#concept_ap1_q2g_4cb

CDH安装

CDH安装分两部分,Cloudera Manager(CM)安装和CDH的安装。CM包含server端和agent端,通常先安装CM,在通过WEB UI的管理控制台安装部署CDH。

对于CDH的安装官方提供了三种安装方式:

1、在线安装 :https://www.cloudera.com/documentation/enterprise/latest/topics/cm_ig_non_production.html

2、rpm/yum 安装 : https://www.cloudera.com/documentation/enterprise/latest/topics/cm_ig_install_path_b.html

3、tar包安装:https://www.cloudera.com/documentation/enterprise/latest/topics/cm_ig_install_path_c.html

CDH离线安装过程:这里以tar包的方式安装

环境:

系统:CentOS6.5

JDK版本:1.8

CDH版本:5.10.0

角色:

hadoop01:主节点,需要安装CM-Server,MySQL

hadoop02:客户端,安装CM-Client

hadoop03:客户端,安装CM-Client

安装步骤:

1、下载CM安装包和CDH安装包:

http://archive.cloudera.com/cm5/cm/5/

下载:

cloudera-manager-el6-cm5.10.0_x86_64.tar.gz

https://archive.cloudera.com/cdh5/parcels/5.10.0/

下载:

2、所有节点安装JDK1.8,并设置JAVA_HOME 环境变量,过程省略

3、所有节点时间同步

4、所有节点修改主机名,例如hadoop01 这样修改

vim /etc/sysconfig/network

NETWORKING=yes
HOSTNAME=hadoop01

5、所有修改/etc/hosts文件,并关闭防火墙和SELinux

192.168.131.165 hadoop01
192.168.131.166 hadoop02
192.168.131.168 hadoop03

6、生成秘钥对,使用所有节点之间能够面密码登录

ssh-keygen -t rsa
ssh-copy-id -i ~/.ssh/id_rsa.pub hadoop01
 ll
total 12
-rw------- 1 root root  395 May 16 17:32 authorized_keys
-rw------- 1 root root 1675 May 17 16:11 id_rsa
-rw-r--r-- 1 root root  812 May 17 16:12 known_hosts
scp * hadoop02:/root/.ssh
scp * hadoop03:/root/.ssh

7、所有节点创建/opt/cloudera-manager目录

mkdir /opt/cloudera-manager

将cm安装包解压到 /opt/cloudera-manager

tar zxf cloudera-manager-el6-cm5.10.0_x86_64.tar.gz -C /opt/cloudera-manager/

8、所有节点创建用户

sudo useradd --system --home=/opt/cloudera-manager/cm-5.10.0/run/cloudera-scm-server --no-create-home --shell=/bin/false --comment "Cloudera SCM User" cloudera-scm

9、所有节点修改cloudera-scm-agent 配置,将server_host设置为主节点的主机名

cd /opt/cloudera-manager/cm-5.10.0/etc/cloudera-scm-agent
vim  config.ini

设置server_host=hadoop01 (注意,所有节点都要改)

所有节点设置/proc/sys/vm/swappiness 设置为最大值 0。当前设置为 60,

echo 0 > /proc/sys/vm/swappiness


所有主机禁用透明压缩

echo never > /sys/kernel/mm/transparent_hugepage/defrag
echo never > /sys/kernel/mm/transparent_hugepage/enabled

10、主节点配置

a、安装依赖包

yum -y install bind-utils chkconfig cyrus-sasl-gssapi cyrus-sasl-plain fuse fuse-libs gcc httpd
yum -y install libxslt mod_ssl openssl openssl-devel perl portmap psmisc  sqlite swig zlib

b、安装mysql并启动服务

c、设置mysql账户的登录密码

mysqladmin -u root password '123456'

d、下载 mysql 驱动包

cd /opt/cloudera-manager/cm-5.10.0/share/cmf/lib
wget http://maven.aliyun.com/nexus/service/local/repositories/hongkong-nexus/content/Mysql/mysql-connector-java/5.1.38/mysql-connector-java-5.1.38.jar

e、创建库

为CM创建数据库

格式:

scm_prepare_database.sh mysql cm -h <hostName> -u<username>  -p<password> --scm-host <hostName>  scm scm scm

对应于:数据库类型  数据库 服务器 用户名 密码  –scm-host  Cloudera_Manager_Server 所在节点……

 ./scm_prepare_database.sh mysql cm -h127.0.0.1 -uroot -p123456 --scm-host localhost scm scm scm

  JAVA_HOME=/usr/java/jdk1.8.0_151
Verifying that we can write to /opt/cloudera-manager/cm-5.10.0/etc/cloudera-scm-server
Creating SCM configuration file in /opt/cloudera-manager/cm-5.10.0/etc/cloudera-scm-server
Executing:  /usr/java/jdk1.8.0_151/bin/java -cp /usr/share/java/mysql-connector-java.jar:/usr/share/java/oracle-connector-java.jar:/opt/cloudera-manager/cm-5.10.0/share/cmf/schema/../lib/* com.cloudera.enterprise.dbutil.DbCommandExecutor /opt/cloudera-manager/cm-5.10.0/etc/cloudera-scm-server/db.properties com.cloudera.cmf.db.
[                          main] DbCommandExecutor              INFO  Successfully connected to database.
All done, your SCM database is configured correctly!

出现上面的提示表示成功

f、创建cdh需要的库,为后面安装CDH组件准备

#为hive建库hive
create database hive DEFAULT CHARSET utf8 COLLATE utf8_general_ci;
#activity monitor
create database amon DEFAULT CHARSET utf8 COLLATE utf8_general_ci;
#为oozie建库oozie
create database oozie DEFAULT CHARSET utf8 COLLATE utf8_general_ci;
#为hue建库hue
create database hue DEFAULT CHARSET utf8 COLLATE utf8_general_ci;
create database reports DEFAULT CHARSET utf8 COLLATE utf8_general_ci;
 
设置root授权访问以上所有的数据库:
#授权root用户在主节点拥有所有数据库的访问权限
grant all privileges on *.* to 'root'@'%' identified by '123456' with grant option;
grant all privileges on *.* to 'root'@'hadoop01' identified by '123456' with grant option;
grant all privileges on *.* to 'root'@'127.0.0.1' identified by '123456' with grant option;
grant all privileges on *.* to 'root'@'localhost' identified by '123456' with grant option;
flush privileges;

g、创建/opt/cloudera/parcel-repo目录

mkdir -p /opt/cloudera/parcel-repo

  • CDH-5.10.0-1.cdh5.10.0.p0.41-el6.parcel
  • manifest.json
  • CDH-5.10.0-1.cdh5.10.0.p0.41-el6.parcel.sha1

三个文件拷贝到该目录,并将CDH-5.10.0-1.cdh5.10.0.p0.41-el6.parcel.sha1重命名为CDH-5.10.0-1.cdh5.10.0.p0.41-el6.parcel.sha

修改/opt/cloudera/parcel-repo 文件权限

chown cloudera-scm:cloudera-scm /opt/cloudera/parcel-repo

h、在主节点上启动CM-Manager服务和CM-Agent服务,并在所有从节点上启动CM-Agent服务

/opt/cloudera-manager/cm-5.10.0/etc/init.d/cloudera-scm-server  start
/opt/cloudera-manager/cm-5.10.0/etc/init.d/cloudera-scm-agent  start

11、CM控制台配置

登录http://hadoop01:7180

账号密码都是admin

创建集群

未完待续

原文地址:http://blog.51cto.com/zengestudy/2117629

时间: 2024-08-28 08:50:57

CDH 离线安装部署的相关文章

Apache Hadoop集群离线安装部署(三)——Hbase安装

Apache Hadoop集群离线安装部署(一)--Hadoop(HDFS.YARN.MR)安装:http://www.cnblogs.com/pojishou/p/6366542.html Apache Hadoop集群离线安装部署(二)--Spark-2.1.0 on Yarn安装:http://www.cnblogs.com/pojishou/p/6366570.html Apache Hadoop集群离线安装部署(三)--Hbase安装:http://www.cnblogs.com/po

Cloudera CDH 离线安装与使用

CDH 在线安装方法如下,方便,但是由于在国内,访问这个网站的速度很慢,并不快捷. 在线安装Cloudera Manager服务器 # 配置cloudera-cdh源和cloudera-manager源 # cloudera-manager wget http://archive.cloudera.com/cm5/redhat/6/x86_64/cm/cloudera-manager.repo # cloudera-cdh wget https://archive.cloudera.com/cd

Apache Hadoop集群离线安装部署(一)——Hadoop(HDFS、YARN、MR)安装

虽然我已经装了个Cloudera的CDH集群(教程详见:http://www.cnblogs.com/pojishou/p/6267616.html),但实在太吃内存了,而且给定的组件版本是不可选的,如果只是为了研究研究技术,而且是单机,内存较小的情况下,还是建议安装Apache的原生的集群拿来玩,生产上自然是Cloudera的集群,除非有十分强大的运维. 我这次配了3台虚拟机节点.各给了4G,要是宿主机内存就8G的,可以搞3台2G,应该也是ok的. 〇.安装文件准备 Hadoop 2.7.3:

Redis在CentOS 7上的安装部署

http://www.linuxidc.com/Linux/2017-05/143312.htm   不能更赞了 简介: Redis是一种高级key-value数据库.它跟memcached类似,不过数据可以持久化,而且支持的数据类型很丰富.有字符串,链表,集 合和有序集合.支持在服务器端计算集合的并,交和补集(difference)等,还支持多种排序功能.所以Redis也可以被看成是一个数据结构服务器. Redis的所有数据都是保存在内存中(效率高),然后不定期的通过异步方式保存到磁盘上(这称

Hadoop部署实践: &nbsp; 离线安装 CDH5.1 &nbsp; (待完成)

配置主机映射关系 [[email protected] ~]$ cat /etc/hosts 127.0.0.1   localhost localhost.localdomain localhost4 localhost4.localdomain4 10.15.5.200 master.hadoop 10.15.5.201 slave01.hadoop 10.15.5.202 slave02.hadoop 10.15.5.203 slave03.hadoop 如上有4台主机,每台hosts都已

RancherOS v0.8.0全面发布:支持离线安装,更佳部署体验

RancherOS v0.8.0现已全面发布,采用Linux 4.9.9主线内核,并且支持离线安装,给你更好的部署体验.同时,还有更早启动cloud-init.支持cloud-config验证.新的ZFS服务等一系列新功能. 这个版本的完成相较以前的版本耗时更长,因为我们此前致力于打下更扎实的基础,以便我们后面更快地更新.更频繁地发布新内容和新功能. 新版本亮点 使用Linux 4.9.9主线内核  新版RancherOS采用主线稳定的Linux内核,从而让容器用户得以更快地访问新功能,这也意味

Tez 整合Hadoop CDH 5.3.0安装部署

子曰:君子食无求饱,居无求安,敏于事而慎于言,就有道而正焉,可谓好学也已. 译文:君子吃不求太饱,住不求太舒适,做事勤快,说话谨慎,向道德高的人学习,并能改正自己的缺点,这样就可以称得上好学了. 最近要把CDH的版本换成了5.3.0,hive的版本从0.12换成了0.13,升级完成后,简单测试发现版本的升级对性能的影响非常大.hive在0.13中开始支持tez做为执行引擎来提高执行速度. Tez 和 MR 的对比图: 图中可以看出原始的 MR 程序是多job 的DAG,每个job都会进行写盘和读

CDH5.7快速离线安装教程

一.简介 CDH是cloudera公司开发的一个快速部署.高效管理Hadoop和其各种组件的一个商业化产品.主要分为两部分,分别为Cloudera Manager和CDH软件包.其中Cloudera Manager负责集群的部署与管理.CDH软件包囊括了hdaoop各类的组件的安装包,例如hive.hdfs.spark等等. 由于实验室服务器集群实现了硬件虚拟化,要在虚拟资源重新搭建CDH集群.cloudera的搭建官方提供了三种安装方式.分别是在线安装.yum安装和离线安装,我首先是采用离线安

Cloudera Manager和CDH5.8离线安装

https://blog.csdn.net/zzq900503/article/details/52982828 简介 我们在上篇文章中已经了解了CDH,为了后续的学习,我们本章就来安装CDH5.8.CDH5.8是目前比较新的版本,自带hadoop2.0以上的hadoop,而且已经包含了很多组件,也是我们接下来需要学习的hadoop生态圈中的组件. 环境 Cloudera Manager是为了简化hadoop及其组件的部署,但是由于包含的组件较多,对内存要求也比较大.所以我们尽量要保持主节点ma