Tarball安装CDH5.2.1(一)--基础服务HDFS/MR2/YARN

最近公司云主机可以申请使用了,搞了几台机器打算弄个小集群,便于调试目前使用的各个组件。本系列只是个人备忘使用,会怎么方便怎么来,并不一定是正常的ops操作方法。同时,因为专注点有限(目前主要是spark、storm),并不会将目前CDH的各个组件都完整都搭一遍,只是按照个人需要进行,然后会记录下来,备忘一下。

虽然看起来只是一个安装过程,可是我们仍然有必要了解现在的CDH的软件栈,下文围绕的CDH5.2.1版本。

选择CDH5.2.X的原因有几个:

1.集成了MR2,同时还向后兼容MR1,这样就可以使用YARN来调度;

2.集成了spark,这样可以充分利用HDFS、yarn的功能,配合起来应用,这个会是重要探究的地方

3.继承了Cloudera Search的功能,Search源自于apache solr,是一个值得关注的地方

以上提到的组件可以在这里下载:

http://www.cloudera.com/content/cloudera/en/documentation.html

目录:

零、安装准备

一、配置

二、单机启动

三、分发配置

四、测试集群功能

零、安装准备

在安装之前,常规检查及配置先搞好,这个比较简单,就是比较细碎,每一项都可以在网上找到资料,不赘述

1.防火墙

2.修改/etc/hosts

3.安装JDK及配置

4.打通ssh

etc...

搞定以上内容后,选择master操作,解压文件hadoop-2.5.0-cdh5.2.1.tar.gz

配置软链设置config路径

/apps/conf/hadoop_conf -> /apps/svr/hadoop/etc

一、配置

我们需要配置的conf在这里:/apps/conf/hadoop_conf/hadoop

详细如下:

  • conf/core-site.xml
    
    <property>
                    <name>fs.defaultFS</name>
                    <value>hdfs://master:9000</value>
    </property>
    conf/hdfs-site.xml
    <property>
                    <name>dfs.namenode.name.dir</name>
                    <value>file:///apps/dat/hard_disk/0/dfs/nn</value>
            </property>
            <property>
                    <name>dfs.datanode.data.dir</name>
                    <value>/apps/dat/hard_disk/0/dfs/dn</value>
    </property>
    conf/yarn-site.xml
    <property>
                    <name>yarn.resourcemanager.address</name>
                    <value>master:8032</value>
            </property>
            <property>
                    <name>yarn.web-proxy.address</name>
                    <value>master:8042</value>
            </property>
            <property>
                    <name>yarn.resourcemanager.scheduler.address</name>
                    <value>master:8030</value>
            </property>
            <property>
                    <name>yarn.resourcemanager.admin.address</name>
                    <value>master:8141</value>
            </property>
            <property>
                    <name>yarn.resourcemanager.webapp.address</name>
                    <value>master:8088</value>
    </property>
    conf/slaves
    master
    slave1
    conf/hadoop-env.sh
    export JAVA_HOME=/apps/svr/jdk6

二、启动

启动前需要针对HDFS进行格式化

bin/hdfs namenode
-format

格式化完成后,会在配置的NN路径下看到如下文件

[[email protected] hadoop]# ll /apps/dat/hard_disk/0/dfs/nn/

total 4

drwxr-xr-x 2 root root 4096 Dec 30 16:21 current

[[email protected] hadoop]# ll /apps/dat/hard_disk/0/dfs/nn/current/

total 16

-rw-r--r-- 1 root root 351 Dec 30 16:21 fsimage_0000000000000000000

-rw-r--r-- 1 root root  62 Dec 30 16:21 fsimage_0000000000000000000.md5

-rw-r--r-- 1 root root   2 Dec 30 16:21 seen_txid

-rw-r--r-- 1 root root 200 Dec 30 16:21 VERSION

配置完成可以现在master上进行单机测试

启动dfs:

[[email protected] sbin]# ./start-dfs.sh

启动yarn

sbin/start-yarn.sh

三、分发配置

确认单机启动无误后,将配置文件及配置进行分发

--检查发生更改的文件,以作分发使用

[[email protected] hadoop]# ls -alt

total 152

drwxr-xr-x 2 1106 592  4096 Dec 30 17:26 .

-rw-r--r-- 1 1106 592    21 Dec 30 17:26 slaves

-rw-r--r-- 1 1106 592  3484 Dec 30 17:01 hadoop-env.sh

-rw-r--r-- 1 1106 592  4567 Dec 30 16:59 yarn-env.sh

-rw-r--r-- 1 1106 592  1197 Dec 30 16:18 yarn-site.xml

-rw-r--r-- 1 1106 592   997 Dec 30 16:15 hdfs-site.xml

-rw-r--r-- 1 1106 592   863 Dec 30 16:11 core-site.xml

查看master创建的新目录操作

[[email protected] sbin]# history |grep "mkdir -p"

556  mkdir -p /apps/dat/hard_disk/0/dfs/dn

575  mkdir -p /apps/logs/hadoop

689  mkdir -p /apps/dat/hard_disk/0/dfs/nn

到datanode节点上,进行解压、创建配置路径、scp 配置文件

tar xvzf hadoop-2.5.0-cdh5.2.1.tar.gz && ln -s hadoop-2.5.0-cdh5.2.1 hadoop

ln -s /apps/svr/hadoop/etc /apps/conf/hadoop_conf

scp slaves hadoop-env.sh yarn-env.sh yarn-site.xml hdfs-site.xml core-site.xml [email protected]:/apps/conf/hadoop_conf/hadoop

部署完成后,在master节点启动

sbin/start-all.sh

四、测试集群功能

测试HDFS功能及MR2的功能

bin/hdfs dfs -put etc/hadoop
/tony

bin/hadoop jar share/hadoop/mapreduce2/hadoop-mapreduce-examples-2.5.0-cdh5.2.1.jar grep /tony/hadoop /tony/test-mr2 ‘dfs[a-z.]+‘

[[email protected] hadoop]# hadoop fs -cat /tony/test-mr2/part-r-00000

14/12/31 16:16:56 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable

6       dfs.audit.logger

4       dfs.class

3       dfs.server.namenode.

2       dfs.period

2       dfs.audit.log.maxfilesize

2       dfs.audit.log.maxbackupindex

1       dfsmetrics.log

1       dfsadmin

1       dfs.servers

1       dfs.namenode.name.dir

1       dfs.file

1       dfs.datanode.data.dir

Yarn: http://master:8080

NN: http://master:50070

到这里,hadoop集群的基础服务就可以使用了

时间: 2024-10-13 08:51:54

Tarball安装CDH5.2.1(一)--基础服务HDFS/MR2/YARN的相关文章

kubeadm安装集群系列-1.基础服务安装

基础服务 本文基于centos7.5部署 规划 10.8.28.200 master-VIP 10.8.31.84 k8s-test-master-1 10.8.152.149 k8s-test-master-2 10.8.191.56 k8s-test-master-3 10.8.85.173 k8s-test-node-1 将host信息写入hosts文件 系统调优 1 # 关闭swap 2 swapoff -a 3 yes | cp /etc/fstab /etc/fstab_bak 4

计算机网络管理基础服务安装

使用yum方式完成服务安装 ___By Nemo(仅供参考) Notice:Apache 安装好之后,我又改回桥接模式用rpm安装了. 首先,让你的虚拟机上个网,所以需要把网卡设置成nat模式,在宿主机上先拨个号,设好后重启linux系统. 重启后,打开firefox,看是不是能上网.Ok,但nat模式默认的ip是动态分配的,咱们得按照老师的要求把设成你静态的学生牌号.所以咱们得这么设一下!应该通过vmware虚拟机中-->Edit(编 缉)-->Virtual Net Editor(虚拟网络

计算机网络管理基础服务安装+大数据时代的网络运维

使用yum方式完成服务安装 ___By Nemo(仅供参考) Notice:Apache 安装好之后,我又改回桥接模式用rpm安装了. 首先,让你的虚拟机上个网,所以需要把网卡设置成nat模式,在宿主机上先拨个号,设好后重启linux系统. 重启后,打开firefox,看是不是能上网.Ok,但nat模式默认的ip是动态分配的,咱们得按照老师的要求把设成你静态的学生牌号.所以咱们得这么设一下!应该通过vmware虚拟机中-->Edit(编 缉)-->Virtual Net Editor(虚拟网络

CDH5上安装Hive,HBase,Impala,Spark等服务

Apache Hadoop的服务的部署比较繁琐,需要手工编辑配置文件.下载依赖包等.Cloudera Manager以GUI的方式的管理CDH集群,提供向导式的安装步骤.由于需要对Hive,HBase,Impala,Spark进行功能测试,就采用了Cloudera Manager方式进行安装. Cloudera Manager提供两种软件包安装源,Package 和 Parcel: Package就是一个个rpm文件,以yum的方式组织起来. Parcel是rpm包的压缩格式,以.parcel结

002-官网安装openstack之-安装基础服务

安装openstack基础服务 (1)控制节点安装时间同步服务(chrony) 1)时间同步大体来说有两种方式: 一种是自己搭建时间同步服务器,各个需要同步时间的节点,与其同步时间 另一种则是使用ntpdate命令直接同步网络中已存在的时间服务器(如阿里云的服务器,地址为ntp.aliyun.com) 这里我是用后者进行时间同步,这样比较方便.如果在企业中主机可以联网的情况下,可以选择与网络时间同步. 1 [[email protected] ~]# ntpdate ntp.aliyun.com

Ubuntu14.04用apt安装CDH5.1.2[Apache Hadoop 2.3.0]

--------------------------------------- 博文作者:迦壹 博客名称:Ubuntu14.04用apt安装CDH5.1.2[Apache Hadoop 2.3.0] 博客地址:http://idoall.org/home.php?mod=space&uid=1&do=blog&id=558 转载声明:可以转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明,谢谢合作! -----------------------------------

基础服务

.net 基础服务开源战略规划备忘录 公司现状 1. 技术人员水平限制: 基础研发人员技术细节,性能处理能力不足,技术视野不够开阔;甚至一些高可用,高性能方案的概念都未听闻,更别提发展方向和思路了,令人痛心. 2. 技术反馈渠道限制: 公司业务线暂不多,基础服务的应用面尚属狭窄:基础服务和镜像各种环境的适应性和性能不足以及时凸显暴露出来,框架bug和问题使用反馈周期太长,不足以快速跟进和改善基础框架. 3. 人员招聘渠道限制: 高技术人才未中长期储备, 各招聘渠道未能招募到合适的技术人员.临时招

云计算之openstack基础服务之一keystone服务最佳实践

1.openstack简介 Openstack是一个项目,该项目支持所有类型的云环境的一个开源云计算平台,该项目的目的是为了实现简单,大规模可扩展性,以及丰富功能集,来自世界各地的云计算专家项目作出贡献.Openstack提供了一个基础架构即服务(Iaas)并通过各种配套服务的解决方案,每个服务提供一个应用编程接口来完成整个openstack的结合. 架构图如下: 相关服务介绍: 服务名称 项目名称 描述 Dashboard Horizon 基于openstackAPI接口使用Django开发的

Centos-6.5安装CDH-5.9.0教程

Centos-6.5安 本文是为了帮助想以Cloudera搭建自己大数据管理和运行平台的朋友,由于Cloudera有多种安装方式,经过多次的尝试和研究,本文介绍的是其中一种更容易安装成功的方式,供大家参考. Cloudera的介绍可参考官方文档 cloudera介绍 包含cloudera的各个工程项目,这里就不再细说,直接进入正题. 一.准备工作 1.下载CDH相关文件 Cloudera Manager :http://archive.cloudera.com/cm5/cm/5/cloudera