基于Cloudera Manager 5和CDH5(版本5.3.3)的Hadoop集群安装

一、Cloudera Manager/CDH5

1、关于cloudera manager和CDH是什么,这里不做详细介绍了。有官网和百科介绍。

附上官网地址:cloudera manager

2、官网的安装指南

官方文档提供了三种安装方式:在线自动安装/手动安装包安装/手动使用cloudera manager管理安装

此处使用第三种方式安装hadoop集群。

二、环境规划

1、系统:CentOS 6.4_x86

master:4G内存,硬盘尽量大容量

slave1:2G内存,硬盘尽量大容量

slave2:2G内存,硬盘尽量大容量

2、Cloudera Manager 5.3.3

3、CDH 5.3.3

安装包下载:

下载软件包:

  1. CDH-5.3.3-1.cdh5.3.3.p0.5-el6.parcel
  2. CDH-5.3.3-1.cdh5.3.3.p0.5-el6.parcel.sha1
  3. manifest.json

三、系统环境准备工作

  • 此次执行权限均为root用户
  • 所有的机器都必须ssh互信模式
  • 修改主机名使用hosts文件或者DNS服务器
  • 关闭iptables和selinux
  • 卸载系统自带的openjdk,安装oracle的jdk
  • master节点安装mysql
  • 所有节点的时间必须同步(ntp服务器或其他方法)
  • 修改所有节点的内核参数

    i. echo 0 > /proc/sys/vm/swappiness

    ii.echo never > /sys/kernel/mm/redhat_transparent_hugepage/defrag

四、正式开始安装

1、cloudera manager默认的目录是在/opt下,解压到/opt目录下。

# tar xf cloudera-manager-el6-cm5.3.3_x86_64.tar.gz -C /opt/
# ls /opt/
cloudera  cm-5.3.3
#
# 安装mysql-connector-java
# yum -y install mysql-connector-java

2、初始化数据库

# /opt/cm-5.3.3/share/cmf/schema/scm_prepare_database.sh mysql cm -hlocalhost -uroot -p123456 --scm-host localhost scm scm scm
# mysql -uroot -p123456 -e "show databases;"    查看下cm数据库是否创建成功

3、复制数据到其他节点

# 修改配置文件server_host为master节点的主机名
# grep server_host /opt/cm-5.3.3/etc/cloudera-scm-agent/config.ini
    server_host=master
# scp -rp /opt/cm-5.3.3 slave1:/opt/
# scp -rp /opt/cm-5.3.3 slave2:/opt/
#
# 每个节点创建系统用户
# useradd --system --home=/opt/cm-5.3.3/run/cloudera-scm-server --no-create-home --shell=/bin/false --comment "cloudera scm user" cloudera-scm

4、数据库的配置

# hive
# create database hive DEFAULT CHARSET utf8 COLLATE utf8_general_ci;
# active monitor
# create database amon DEFAULT CHARSET utf8 COLLATE utf8_general_ci;
# 授权master主机
# grant all on *.* to ‘root‘@‘master‘ identified by ‘PASSWD‘;

5、准备parcels安装包到/opt/cloudera/parcel-repo/

# ls /opt/cloudera/parcel-repo/
CDH-5.3.3-1.cdh5.3.3.p0.5-el6.parcel  CDH-5.3.3-1.cdh5.3.3.p0.5-el6.parcel.sha  manifest.json
# 注意:CDH-5.3.3-1.cdh5.3.3.p0.5-el6.parcel.sha下载后的文件重命名的
#
# 启动master节点的server和agent脚本
# /opt/cm-5.3.3/etc/init.d/cloudera-scm-agent start
# /opt/cm-5.3.3/etc/init.d/cloudera-scm-server start
# server端口启动较慢
#
# 启动其他所有节点的agent脚本
# /opt/cm-5.3.3/etc/init.d/cloudera-scm-agent start

五、CDH 5安装配置

1、访问http://master-ip:7180端口开始安装

登陆名:admin 密码:admin

2、选择一个版本进行安装,此处选择第一个免费版。然后下一步-->下一步

3、选中所有主机:

4、如果配置正确,会出现如下界面

5、然后继续下一步,由于我们已经下载了离线包,所以下载是很快就能完成的

6、主机检测,检测主机是否符合安装要求,符合要求后会全部通过,否则请按照要求设置

7、然后选择需要安装的软件包,可以全选或自定义,也可以选择集成了某一个组件功能的软件包来安装

8、角色分配,此处默认,可以按需调整

9、数据库测试:

10、审核更改参数,可以使用默认,也可以按需更改

11、启动正常的安装配置了,等待安装完成后再次访问主页即可。

12、完成后的登陆界面

由于主机性能较低,数据延迟很大,查询经常无法显示。而且由于此处的磁盘空间不足,所以有很多警告信息。到此安装已全部完成。

六、其他问题说明

oozie的web界面的开启:

cloudera的文档中有说明配置oozie:

安装这个操作即可:

# mv ext-2.2.zip /var/lib/oozie/
# cd /var/lib/oozie
# unzip ext-2.2.zip

刷新界面:

hadoop2.x版本更新了一些新功能,支持HDFS的高可用等。cloudera manager管理界面可以直接操作等这一系列的功能,还是很方便的。

在集群里的HDFS界面的右上角有操作选项栏:

点击后根据提示就能正常的配置了。管理界面添加移除集群中的主机也是非常方便的,具体的操作就不一一演示了。

七、Hadoop测试程序

# 计算pi值
# sudo -u hdfs hadoop jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/hadoop-mapreduce-examples.jar pi 10 100
...
Job Finished in 126.439 seconds
Estimated value of Pi is 3.14800000000000000000
# 可以看到执行结果

可以在YARN的web界面看到详细job的信息

还有很多测试程序可以运行测试。这里就不一一演示了。

另外,这种安装方式虽然快捷方便,但是不利于对整体的理解,建议还是使用下载安装包的方式安装,配置文件等都是需要手动编写的,对于理解比较深刻。

时间: 2024-10-01 03:53:30

基于Cloudera Manager 5和CDH5(版本5.3.3)的Hadoop集群安装的相关文章

Hadoop集群安装-CDH5(5台服务器集群)

CDH5包下载:http://archive.cloudera.com/cdh5/ 架构设计: 主机规划: IP Host 部署模块 进程 192.168.254.151 Hadoop-NN-01 NameNode ResourceManager NameNode DFSZKFailoverController ResourceManager 192.168.254.152 Hadoop-NN-02 NameNode ResourceManager NameNode DFSZKFailoverC

Hadoop集群安装-CDH5(3台服务器集群)

CDH5包下载:http://archive.cloudera.com/cdh5/ 主机规划: IP Host 部署模块 进程 192.168.107.82 Hadoop-NN-01 NameNode ResourceManager NameNode DFSZKFailoverController ResourceManager 192.168.107.83 Hadoop-DN-01 Zookeeper-01 DataNode NodeManager Zookeeper DataNode Nod

【Hadoop】8、基于虚拟机的Hadoop1.2.1完全分布式集群安装

基于虚拟机的Hadoop集群安装 1.我们需要的软件 Xshell, ssh secure, 虚拟机,Linux centos64, Hadoop1.2.1的安装包 2.安装以上软件 3.安装Linux,此处不多做阐述 4.首先安装jdk 我的路径是 JAVA_HOME=/usr/lib/jvm/jdk1.7.0_79 PATH=PATH:JAVA_HOME/bin CLASSPATH=JAVAHOME/lib/dt.jar:JAVA_HOME/lib/tools.jar 5.解压Hadoop1

Hadoop系列之(三):使用Cloudera部署,管理Hadoop集群

1. Cloudera介绍 Hadoop是一个开源项目,Cloudera对Hadoop进行了商业化,简化了安装过程,并对hadoop做了一些封装. 根据使用的需要,Hadoop集群要安装很多的组件,一个一个安装配置起来比较麻烦,还要考虑HA,监控等. 使用Cloudera可以很简单的部署集群,安装需要的组件,并且可以监控和管理集群. CDH是Cloudera公司的发行版,包含Hadoop,Spark,Hive,Hbase和一些工具等. Cloudera有两个版本: Cloudera Expres

CDH5 集群安装教程

一.虚拟机的安装和网络配置. 1.虚拟机安装. 2.安装CentOS-6.5 64位版本. 桥接模式: Master: 内存:3G: 硬盘容量40G: 4核: Slave: 内存2G: 硬盘容量30G: 2核: 3.网络配置(master,slave) 1)进入root账号 su - root 输入密码: vi /etc/sysconfig/network 2)关闭防火墙 vi /etc/sysconfig/selinux #SELinux=disable Service iptables st

基于OGG的Oracle与Hadoop集群准实时同步介绍

Oracle里存储的结构化数据导出到Hadoop体系做离线计算是一种常见数据处置手段.近期有场景需要做Oracle到Hadoop体系的实时导入,这里以此案例做以介绍.Oracle作为商业化的数据库解决方案,自发性的获取数据库事务日志等比较困难,故选择官方提供的同步工具OGG(Oracle GoldenGate)来解决. 安装与基本配置 环境说明 软件配置 角色 数据存储服务及版本 OGG版本 IP 源服务器 OracleRelease11.2.0.1 Oracle GoldenGate 11.2

cloudera learning4:Hadoop集群规划

涉及到一些关于硬件的东西,我也不是很懂,记录下来有待以后学习. Hadoop集群一般都是由小到大,刚开始可能只有4到6个节点,随着存储数据的增加,计算量的增大,内存需求的增加,集群慢慢变大. 比如按照数据存储量增大集群,每个星期数据存储3TB数据,HDFS的block备份数为3,则集群就需要9TB的磁盘,一般还要再预估25%buffer.如果一台机器的存储量为16*3T,则大概每个月往集群中增加1台机器. 如何进行硬件选择?一般Hadoop节点分成管理节点(master node)和工作节点(w

基于mod_proxy+Apache 2.2.16+Tomcat 7的负载均衡与集群配置

第一章. 背景简介 对于大多数企业应用,都希望能做到7*24小时不间断运行.要保持如此高的可用性并非易事,比较常见的做法是将系统部署到多台机器上,每台机器都对外提供同样的功能,这就是集群.系统变为集群时,除了要求系统能够支持水平伸缩外,还要解决两个问题: 1, 如何均衡地访问到提供业务功能的机器. 2, 如何保证当机器出现问题时,用户能自动跳转到另外的机器,不影响使用. 常用的负载均衡技术有硬件和软件两种,本示例常用软件的技术实现.软件也有很多实现技术,如基于apache的mod_jk以及mod

基于Docker快速搭建多节点Hadoop集群--已验证

Docker最核心的特性之一,就是能够将任何应用包括Hadoop打包到Docker镜像中.这篇教程介绍了利用Docker在单机上快速搭建多节点 Hadoop集群的详细步骤.作者在发现目前的Hadoop on Docker项目所存在的问题之后,开发了接近最小化的Hadoop镜像,并且支持快速搭建任意节点数的Hadoop集群. 一. 项目简介 GitHub: kiwanlau/hadoop-cluster-docker 直接用机器搭建Hadoop集群是一个相当痛苦的过程,尤其对初学者来说.他们还没开