Hadoop系列之（三）：使用Cloudera部署，管理Hadoop集群

1. Cloudera介绍

Hadoop是一个开源项目，Cloudera对Hadoop进行了商业化，简化了安装过程，并对hadoop做了一些封装。

根据使用的需要，Hadoop集群要安装很多的组件，一个一个安装配置起来比较麻烦，还要考虑HA，监控等。

使用Cloudera可以很简单的部署集群，安装需要的组件，并且可以监控和管理集群。

CDH是Cloudera公司的发行版，包含Hadoop，Spark，Hive，Hbase和一些工具等。

Cloudera有两个版本：

Cloudera Express 版本是免费的
Cloudera Enterprise （60天试用期）需要购买注册码

2. 安装Cloudrea Manager，部署Hadoop集群

2.1 安装方法

先安装Cloudrea Manager，再通过Cloudrea Manager在节点上安装Cloudrea Manager客户端，CDH，管理工具。

官方文档：

https://www.cloudera.com/documentation/manager/5-1-x.html

环境需求：

1. 关闭selinux

2. 各节点可以SSH登陆

3. 在/etc/hosts中添加各节点的主机名

2.2 安装Cloudrea Manager

可以通过官方的一键安装包，也可以通过yum或rpm安装。

下面介绍用官方的一键安装包安装。

本次安装环境为CnetOS 7，在3台机器上进行安装

test165 (cloudera manager server)

test166 (cloudera manager agent)

test167 (cloudera manager agent)

2.2.1 下载一键安装包

http://archive.cloudera.com/cm5/installer/latest/

下载最新版： cloudera-manager-installer.bin

2.2.2 安装cloudera manager

在test165上安装cloudera manager server，启动安装向导

# chmod a+x cloudera-manager-installer.bin
# ./cloudera-manager-installer.bin

出现下面画面

一路选择< Next > 和 < Yes >，开始安装。

需要下载JAVA和Cloudrea Manager，共600多MB，根据网络情况，会花一些时间。

出现下面页面，安装完成。

安装完成后，访问Cloudrea Manager的页面，用户名密码都是admin

http://IP或主机名:7180/

2.2.3 安装cloudera manager agent

登录Cloudrea Manager页面，选择要安装的版本，本次安装的是Cloudera Express

选择要安装CDH的主机，用主机名或IP搜索，本次是在三个节点上安装CDH

选择使用Parcel安装，选择CDH版本

选择安装JDK

提供SSH登录信息

开始安装JDK和cloudera manager agent

如果安装过程中，下载安装jdk 或 cloudera-manager-agent失败，可以在节点上手动安装，然后再在Cloudrea Manager上继续安装

# yum -y install jdk
# yum -y install oracle-j2sdk1.7
# yum -y install cloudera-manager-agent

下载Parcel并分配Parcel到各节点

Parcel包1.5G左右，需要一段时间，为了提高安装速度，可以先把包下载到Cloudrea Manager本地，配置本地源

parcel下载地址：

http://archive.cloudera.com/cdh5/parcels/5.5.1/

将下面文件拷贝到/opt/cloudera/parcel-repo/文件夹下

CDH-5.5.1-1.cdh5.5.1.p0.11-el7.parcel

CDH-5.5.1-1.cdh5.5.1.p0.11-el7.parcel.sha

manifest.json

安装完成后，点继续，到检查结果的页面

检查主机正确性时出现 “Cloudera 建议将 /proc/sys/vm/swappiness 设置为 0。当前设置为 30。” 的警告，进行如下设定

# vi /etc/sysctl.conf
vm.swappiness = 0
# sysctl –p

检查主机正确性时出现 “已启用“透明大页面”，它可能会导致重大的性能问题。” 的警告，进行如下设定

echo never > /sys/kernel/mm/transparent_hugepage/enabled
echo never > /sys/kernel/mm/transparent_hugepage/defrag

# vi /etc/rc.local
echo never > /sys/kernel/mm/transparent_hugepage/enabled
echo never > /sys/kernel/mm/transparent_hugepage/defrag

2.3 安装集群，包括Hadoop，YARN，Hive等

检查主机正确性后，点击完成，进入集群配置

选择要安装的服务，可以选择组合或自定义

配置各节点间如何分配

注意： HDFS的Data Node 最少3个。

测试数据库连接

开始安装

3. 确认，测试

确认集群状态正常，动作正常

1. 在集群页面确认，所有服务状态正常

2. 在主机页面确认，各节点的Heartbeat状态正常，并且时间小于15秒

3. 运行任务进行测试

登陆到集群中任意一台主机，执行下面任务（用Hadoop计算PI值，圆周率）

后面2个数字参数的含义： 10指的是要运行10次map任务，10000指的是每个map任务，要投掷多少次，2个参数的乘积就是总的投掷次数。

# sudo -u hdfs hadoop jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/hadoop-mapreduce-examples.jar pi 10 10000

执行结果如下：

任务的执行情况可以在YARN页面上进行确认

群集 -> Cluster 1 -> YARN -> 应用程序

4. 其他

在Cloudrea Manager页面上，可以向集群中添加/删除主机，添加服务到集群等。

Cloudrea Manager页面开启了google-analytics，因为从国内访问很慢，可以关闭google-analytics

管理 -> 设置 -> 其他 -> 允许使用情况数据收集不选

5. 后记

工欲善其事必先利其器，管理Hadoop 集群，Cloudrea 是个不错的选择。

时间： 2024-08-24 22:10:51

Hadoop系列之（三）：使用Cloudera部署，管理Hadoop集群的相关文章

yum 系列（三）离线部署

yum 系列(三) 离线部署一.下载 rpm 依赖包准备一台全新的 CentOS7 mini 虚拟机 ,联网下载所有所需的 rpm 包和其依赖, yum install -y --downloadonly --downloaddir=/home/yum/packages createrepo ansible ruby rubygems 注意: 安装软件包 xxx 下载到 /xxx 位置,然后记得指定 --downloadonly,只下载,不安装. 此方法,会将主软件包和基于你现在的操作系统

王家林的云计算分布式大数据Hadoop征服之旅：HDFS&MapReduce&HBase&Hive&集群管理

一:课程简介: 作为云计算实现规范和实施标准的Hadoop恰逢其时的应运而生,使用Hadoop用户可以在不了解分布式底层细节的情况下开发出分布式程序,从而可以使用众多廉价的计算设备的集群的威力来高速的运算和存储,而且Hadoop的运算和存储是可靠的.高效,的.可伸缩的,能够使用普通的社区服务器出来PB级别的数据,是分布式大数据处理的存储的理想选择. 本课程会助你深入浅出的掌握Hadoop开发(包括HDFS.MapReduce.HBase.Hive等),并且在此基础上掌握Hadoop集群的配置.维

Hadoop集群管理--保证集群平稳地运行

本篇介绍为了保证Hadoop集群平稳地运行,需要深入掌握的知识,以及一些管理监控的手段,日常维护的工作. HDFS 永久性数据结构对于管理员来说,深入了解namenode,辅助namecode和datanode等HDFS组件如何在磁盘上组织永久性数据非常重要. 洞悉各文件的用法有助于进行故障诊断和故障检出. namenode的目录结构 namenode被格式化后,将在${dfs.namenode.name.dir}/current 目录下,产生如下的目录结构:VERSION.edits.fsi

001.Ansible部署RHCS存储集群

一前期准备 1.1 前置条件至少有三个不同的主机运行monitor (MON)节点: 至少三个直接存储(非外部SAN硬件)的OSD节点主: 至少两个不同的manager (MGR)节点: 如果使用CephFS,则至少有两个完全相同配置的MDS节点: 如果使用Ceph对象网关,则至少有两个不同的RADOSGW节点. 一个部署节点,可以使用ceph-ansible包中的Ansible剧本来部署和配置集群. 提示:Red Hat Ceph存储还支持在Red Hat OpenStack平台计算节点上

[转帖]Ansible管理windows集群

http://www.cnblogs.com/Dev0ps/p/10026908.html 写的挺好的我关注点还是不够好呢最近公司新项目需要安装400+windows server 2012系统的工作站,想着怎么能像linux下运用ansible批量管理,linux就很简单了有ssh服务但是下却没这么简单,但还是有办法那就是Powershell. Ansible可用于管理Windows集群,不过管理节点需要部署在Linux机器上,而且需要预装python winrm模块. 同时,Windo

手把手教你用Docker部署一个MongoDB集群

MongoDB是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中最像关系数据库的.支持类似于面向对象的查询语言,几乎可以实现类似关系数据库单表查询的绝大部分功能,而且还支持对数据建立索引.本文介绍了如何使用Docker搭建MongoDB集群. 本文我会向大家介绍如何使用Docker部署一个MongoDB集群,具体如下: 2.6.5版本的MongoDB 有3个节点的副本集(Replica set) 身份验证持久化数据到本地文件系统首先要准备三个运行的Docker服务器,这意味着你

将java开发的wordcount程序部署到spark集群上运行

1 package cn.spark.study.core; 2 3 import java.util.Arrays; 4 5 import org.apache.spark.SparkConf; 6 import org.apache.spark.api.java.JavaPairRDD; 7 import org.apache.spark.api.java.JavaRDD; 8 import org.apache.spark.api.java.JavaSparkContext; 9 impo

从单机到集群会话的管理之集群模式二（更大的集群）

<从单机到集群会话的管理之集群模式一>中讲到的全节点复制的网络流量随节点数量增加呈平方趋势增长,也正是因为这个因素导致无法构建较大规模的集群,为了使集群节点能更加大,首要解决的就是数据复制时流量增长的问题,下面将介绍另外一种会话管理方式,每个会话只会有一个备份,它使会话备份的网络流量随节点数量的增加呈线性趋势增长,大大减少了网络流量和逻辑操作,可构建较大的集群. 下面看看这种方式具体的工作机制,集群一般是通过负载均衡对外提供整体服务,所有节点被隐藏在后端组成一个整体.前面各种模式的实现都无需负

使用Chef管理windows集群 | 运维自动化工具

但凡服务器上了一定规模(百台以上),普通的ssh登录管理的模式就越来越举步维艰.试想Linux发布了一个高危漏洞的补丁,你要把手下成百上千台机器都更新该补丁,如果没有一种自动化方式,那么至少要耗上大半天时间.虽然你编写了大量的shell(或python,perl)脚本来实现各种自动化场景,但最后会发现你又陷入了脚本的汪洋大海之中,管理和维护这么多的脚本的成本也不小.你需要一款基础设施自动化工具,希望它能具有以下功能. 1批量执行这个不多说了吧,试想要为每一台机器打补丁的情形吧. 2任务编排现

Oracle数据库精讲课程之Rac管理（集群组件、性能监控及调整、节点管理、备份和恢复）

对这个课程有兴趣的朋友可以加我的QQ2059055336和我联系本课程主要是介绍Oracle RAC体系结构与工作机制,了解并掌握RAC数据库下的相关技术,如:cache Fusion. Failover.load balance.FAN.OCR和Voting disk等,通过VMWARE虚拟环境,实践演练RAC数据库的安装部署.RAC数据库日常性能监控.备份和恢复.实例增加和删除以及补丁安装等操作,通过本课程的学习,学员在掌握RAC理论知识基础上,能够熟练掌握RAC数据库的日常管理操作. 课