hadoop多机安装YARN

hadoop伪分布安装称为测试环境安装,多机分布称为生成环境安装。以下安装没有进行HA(热备)和Federation(联邦)。除非是性能需要,否则没必要安装Federation,HA可以一试,涉及到Zookeeper自动切换。

  1. 准备工作

    1) linux优化

    ①安装虚拟机linux系统,采用1.2 中的CentOS调优所有步骤,关闭防火墙;②设置网络为桥接模式(编辑虚拟机设置—>网络适配器),查看自动分配ip或手动配置ip;③等JDK安装的JAVA_HOME(见1.3.1)和HADOOP_HOME(见2.1.6(8))配置好后,直接复制虚拟机,将whaozl001的虚拟机系统复制成3个文件夹作为DataNode的数据节点的linux主机,网卡要重新删除和编辑,见2.1.7(3);④配置NameNode节点的主机whaozl001到其他主机ssh免密码登录,见2.1.7;⑤注意:在配置过程中所有的property中的name和value值都不能存在空格、配置中的删除线部分表示可不添加进去。

    2) 配置节点

    对所有Node,配置vim /etc/hosts添加10.30.30.1????whaozl001等ip映射;

    10.30.30.1 whaozl001

    10.30.30.5 whaozl005

    10.30.30.6 whaozl006

    10.30.30.7 whaozl007

    10.30.30.8 whaozl008

    这里配置4个DataNode,1个NameNode,给每个节点主机修改主机名(虚拟机名称、ip映射名、linux主机名):

    ?
    主机名


    ip地址(内网)


    linux用户名


    密码


    充当角色


    NameNode


    whaozl001


    10.30.30.1


    haozhulin


    123456?


    nn/snn/rm?


    DataNode


    whaozl005


    10.30.30.5


    haozhulin?


    123456?


    dn/nm?


    DataNode


    whaozl006


    10.30.30.6


    haozhulin?


    123456?


    dn/nm?


    DataNode


    whaozl007


    10.30.30.7


    haozhulin?


    123456?


    dn/nm?


    DataNode


    whaozl008


    10.30.30.8


    haozhulin?


    123456?


    dn/nm?

    虚拟机名称就是虚拟机文件夹名。用户均为haozhulin,其在linux的/home目录下有一个haozhulin文件夹(用户文件夹)。在cluster中充当的角色(namenode, secondary namenode, datanode , resourcemanager, nodemanager)。

  2. 解压

    将安装包hadoop-2.2.0.tar.gz存放到/home/haozhulin/install/目录下,并解压

    先让其有执行权限,然后直接./就可以解压

    chmod
    +x hadoop-2.2.0.tar.gz

    ./hadoop-2.2.0.tar.gz

    配置之前,在whaozl001主机的/home/haozhulin/install/hadoop-2.2.0/下建立三个文件夹:~/dfs/name、~/dfs/data、~/temp;

    接下来修改/home/haozhulin/install/hadoop-2.2.0/etc/hadoop/下的7个文件。

    hadoop-env.sh

    core-site.xml

    hdfs-site.xml

    mapred-site.xml

    yarn-site.xml

    slaves

    yarn-env.sh

  3. 修改hadoop-env.sh

    配置hadoop的jdk版本环境

    cd /home/haozhulin/install/hadoop-2.2.0/etc/hadoop/

    vim hadoop-env.sh

    hadoop-env.sh为hadoop环境变量,依赖JDK,进行如下修改

    #第27行

    export JAVA_HOME=/home/haozhulin/install/java/jdk1.7.0_09

  4. 修改core-site.xml

    在其<configuration></ configuration >中插入:

    <!-- 制定HDFS的老大(NameNode)的地址 -->

    <property>

    ????<!--<name>fs.default.name</name>-->

    ????<name>fs.defaultFS</name>

    ????<value>hdfs://whaozl001:9000</value>

    </property>

    <!--指定hadoop运行时产生文件的存储目录-->

    <property>

    ????<name>hadoop.tmp.dir</name>

    ????<value>file:///home/haozhulin/install/hadoop-2.2.0/tmp</value>

    </property>

    <!--指定hadoop运行的流文件的缓冲区,单位B,这里设置为128KB,默认4KB-->

    <property>

    ????<name>io.file.buffer.size</name>

    ????<value>131072</value>

    </property>

    <property>

    ????<name>hadoop.proxyuser.haozhulin.hosts</name>

    ????<value>*</value>

    </property>

    <property>

    ????<name>hadoop.proxyuser.haozhulin.groups</name>

    ????<value>*</value>

    </property>

  5. 修改hdfs-site.xml

    在其<configuration></ configuration >中插入:

    <!--HA就不需要secondary咯,这里不是HA,就需要配置Secondaryhtpp通信地址-->

    <property>

    ????<name>dfs.namenode.secondary.http-address</name>

    ????<value> whaozl001:9001</value>

    </property>

    <property>

    ????<name>dfs.namenode.name.dir</name>

    ????<value>file:///home/haozhulin/install/hadoop-2.2.0/dfs/name</value>

    </property>

    <property>

    ????<name>dfs.datanode.data.dir </name>

    ????<value>file:///home/haozhulin/install/hadoop-2.2.0/dfs/data</value>

    </property>

    <!--指定HDFS存在block的副本数量,默认值是3个,现有4个DataNode,该值不大于4即可-->

    <property>

    ????<name>dfs.replication</name>

    ????<value>2</value>

    </property>

    <property>

    ????<name>dfs.webhdfs.enabled</name>

    ????<value>true</value>

    </property>

  6. 修改mapred-site.xml

    从template命名mapred-site.xml后<configuration></configuration>中插入:

    <!-- 指定mr运行在yarn上 -->

    <property>

    ????<name>mapreduce.framework.name</name>

    ????<value>yarn</value>

    </property>

    <property>

    ????<name>mapreduce.jobhistory.address</name>

    ????<value>whaozl001:10020</value>

    </property>

    <property>

    ????<name>mapreduce.jobhistory.webapp.address</name>

    ????<value> whaozl001:19888</value>

    </property>

  7. 修改yarn-site.xml

    在其<configuration></ configuration >中插入:

    <!-- 指定YARN的老大(ResourceManager)的地址 -->

    <property>

    ????<name>yarn.resourcemanager.hostname</name>

    ????<value>whaozl001</value>

    </property>

    <!-- reducer获取数据的方式 -->

    <property>

    ????<name>yarn.nodemanager.aux-services</name>

    ????<value>mapreduce_shuffle</value>

    </property>

    <property>

    ????<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>

    ????<value>org.apache.hadoop.mapred.ShuffleHandler</value>

    </property>

    <property>

    ????<name>yarn.resourcemanager.address</name>

    ????<value>whaozl001:8032</value>

    </property>

    <property>

    ????<name>yarn.resourcemanager.scheduler.address</name>

    ????<value> whaozl001:8030</value>

    </property>

    <property>

    ????<name>yarn.resourcemanager.resource-tracker.address</name>

    ????<value> whaozl001:8031</value>

    </property>

    <property>

    ????<name>yarn.resourcemanager.admin.address</name>

    ????<value> whaozl001:8033</value>

    </property>

    <property>

    ????<name>yarn.resourcemanager.webapp.address</name>

    ????<value> whaozl001:8088</value>

    </property>

  8. 修改slaves

    #定位到/home/haozhulin/install/hadoop-2.2.0/etc/hadoop/slaves文件

    vim etc/hadoop/slaves

    #由于是单机伪分布,所以DataNode就只有localhost

    #不需要修改,也可以改为127.0.0.1,都是指本机

    #slaves文件中记录所有的slave节点,写入以下内容

    whaozl005

    whaozl006

    whaozl007

    whaozl008

  9. 修改yarn-en.sh

    同修改hadoop-env.sh,修改里面的JAVA_HOME值。

  10. 将配置复制到其他节点

    这里可以写一个shell脚本进行操作(有大量节点时比较方便)。

    scp –r /home/haozhulin/install/hadoop-2.2.0 [email protected]:~/

    scp –r /home/haozhulin/install/hadoop-2.2.0 [email protected]:~/

    scp –r /home/haozhulin/install/hadoop-2.2.0 [email protected]:~/

    scp –r /home/haozhulin/install/hadoop-2.2.0 [email protected]:~/

    scp –r 表示递归到目录和目录中文件远程复制到目标主机,~表示当前用户目录(用户目录就是保存在/home下)。

  11. 格式化namenode

    #进入hadoop位置/home/haozhulin/install/hadoop-2.2.0

    cd /home/haozhulin/install/hadoop-2.2.0

    #格式化namenode

    ./bin/hdfs namenode –format????

  12. 启动hadoop

    #进入hadoop位置/home/haozhulin/install/hadoop-2.2.0

    cd /home/haozhulin/install/hadoop-2.2.0

    #启动hdfs

    ./sbin/start-dfs.sh

    #jps可查看进程

    #此时在whaozl001上面运行的进程有namenode secondarynamenode

    #whaozl005/whaozl006/whaozl007/whaozl008上运行的进程有datanode

    #启动yarn

    ./sbin/start-yarn.sh

    #此时在whaozl001上面有namenode secondarynamenode resourcemanager

    #whaozl005/whaozl006/whaozl007/whaozl008有:datanode nodemanaget

    了解hadoop运行情况:

    #查看集群状态

    ./bin/hdfs dfsadmin –report

    #查看文件块组成

    ./bin/hdfsfsck / -files –blocks

    #查看HDFS:

    http://10.30.30.1:50070

    #查看RM

    http://10.30.30.1:8088

  13. 测试

    #先在hdfs上创建一个文件夹

    ./bin/hdfs dfs –mkdir /input

    #测试案例

    ./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-2.2.0.jarrandomwriter /input

时间: 2024-10-05 04:54:38

hadoop多机安装YARN的相关文章

hadoop学习;安装jdk,workstation虚拟机v2v迁移;虚拟机之间和跨物理机之间ping网络通信

JDK 在Ubuntu下的安装 与 环境变量的配置 前期准备工作: 找到  JDK 和 配置TXT文件  并复制到桌面下  不是文件夹 而是文件复制到桌面下 下面的命令部分就直接复制粘贴就可以了 1.配置root用户 使用快捷键 Ctrl + Alt + T  打开终端 输入命令:sudo passwd root 在需要输入密码的地方 输入 123456  (注意 需要输入3次 每次输入的时候在屏幕上是不显示出来的) 2.启用root用户 在终端输入命令:su root 输入密码:123456

Hadoop新MapReduce框架Yarn详解

简介 本文介绍了Hadoop自0.23.0版本后新的MapReduce框架(Yarn)原理,优势,运行机制和配置方法等,着重介绍新的yarn框架相对于原框架的差异及改进,并通过Demo示例详细介绍了在新的Yarn框架下搭建和开发Hadoop程序的方法.读者通过本文中新旧Hadoop MapReduce框架的对比,更深刻理解新的yarn框架技术与那里和设计思想,文中的Demo代码经过微小修改既可用于用户基于Hadoop新框架的实际生产环境. Hadoop MapReduceV2(Yarn)框架简介

Hadoop 新 MapReduce 框架 Yarn 详解

原 Hadoop MapReduce 框架的问题 对于业界的大数据存储及分布式处理系统来说,Hadoop 是耳熟能详的卓越开源分布式文件存储及处理框架,对于 Hadoop 框架的介绍在此不再累述,读者可参考 Hadoop 官方简介.使用和学习过老 Hadoop 框架(0.20.0 及之前版本)的同仁应该很熟悉如下的原 MapReduce 框架图: 图 1.Hadoop 原 MapReduce 架构 从上图中可以清楚的看出原 MapReduce 程序的流程及设计思路: 首先用户程序 (JobCli

Hadoop 2.0安装以及不停集群加datanode

Hadoop2.0是对Hadoop1.0全面升级,诞生了通用的计算框架YARN,很多计算框架或者应用程序不再基于传统的操作系统开发,而是基于YARN这个云操作系统.典型的代表是DAG计算框架Tez,当然还有一些其他知名的自运行的计算集群系统也在YARN上有开源版本,比如Storm-on-yarn,Spark-on-yarn.我们先安装一个Hadoop2.0环境,作为一切的开始. 单机环境中,Hadoop有伪分布式模式,即"单点集群",在该模式下,所有的守护集成均会运行在单个节点上. 伪

Hadoop集群安装配置教程_Hadoop2.6.0_Ubuntu/CentOS

摘自:http://www.powerxing.com/install-hadoop-cluster/ 本教程讲述如何配置 Hadoop 集群,默认读者已经掌握了 Hadoop 的单机伪分布式配置,否则请先查看Hadoop安装教程_单机/伪分布式配置 或 CentOS安装Hadoop_单机/伪分布式配置. 本教程适合于原生 Hadoop 2,包括 Hadoop 2.6.0, Hadoop 2.7.1 等版本,主要参考了官方安装教程,步骤详细,辅以适当说明,保证按照步骤来,都能顺利安装并运行 Ha

Ubuntu16.04下Hadoop的本地安装与配置

一.系统环境 os : Ubuntu 16.04 LTS 64bit java : 1.8.0_161 hadoop : 2.6.4 二.安装步骤 1.安装并配置ssh 1.1 安装ssh 输入命令:  $ sudo apt-get install openssh-server  ,安装完成后使用命令 $ ssh localhost 登录本机.首次登录会有提示,输入yes,接着输入当前用户登录电脑的密码即可. 1.2 配置ssh无密码登录 首先使用命令 $ exit 退出上一步的ssh,然后使用

原生hadoop生态系统组件安装文档

CDP组件部署文档 0000-安装包的下载 1- 操作系统centos7  (版本7.2.x) (1)下载地址 https://www.centos.org/download/ (2)进入之后按需选择DVD ISO (3)国内下载链接如下(稳定最新版) 2-JDK (版本1.8.144) 下载地址       http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html 3- hadoop 

【原】centos6.5下hadoop cdh4.6 安装

1.架构准备: namenode 10.0.0.2 secondnamenode 10.0.0.3 datanode1 10.0.0.4 datanode2 10.0.0.6 datanode3 10.0.0.11 2.安装用户:cloud-user 3.[namenode]namenode到其他节点ssh无密码登录: ssh-keygen     (一路回车) ssh-copy-id [email protected]3 ssh-copy-id [email protected]4 ssh-c

基于centos6.5 hadoop 伪分布式安装

步骤1:修改IP 地址和主机名: vi /etc/sysconfig/network-scripts/ifcfg-eth0 如果该文件打开为空白文件代表你计算机上的网卡文件不是这个名称"ifcfg-eth0" ,可以 cd /etc/sysconfig/network-scripts/ 这个目录查看以ifcfg-***开头的文件,就是你的网卡文件.再进行编辑 vi /etc/sysconfig/network-scripts/ifcfg-*** 主要修改项为: BOOTPROTO=&q