Hadoop Yarn 安装

环境:Linux, 8G 内存,60G 硬盘 , Hadoop 2.2.0

为了构建基于Yarn体系的Spark集群,先要安装Hadoop集群,为了以后查阅方便记录了我本次安装的具体步骤。

事前准备

1. 机器准备

三台主机,#后面说明了用途

  • 192.168.1.1   #hadoop1 : master
  • 192.168.1.2   #hadoop2 : datanode1
  • 192.168.1.3   #hadoop3:  datanode2

在hadoop1上, vi /etc/sysconfig/network,修改HOSTNAME=hadoop1

在hadoop2上, vi /etc/sysconfig/network,修改HOSTNAME=hadoop2

在hadoop3上, vi /etc/sysconfig/network,修改HOSTNAME=hadoop3

在三台机器上,在/etc/hosts末尾添加

  • 192.168.1.1   hadoop1
  • 192.168.1.2   hadoop2
  • 192.168.1.3   hadoop3

在hadoop1上, 运行 hostname hadoop1

在hadoop2上, 运行 hostname hadoop2

在hadoop3上, 运行 hostname hadoop3

exit重连之后,hostname 就会变成hadoop[1-3],这样做的好处是ssh hadoop2 会自动解析连接192.168.1.2,方便以后使用。这也是短域名实现的方式。

2. 目录创建

$mkdir -p /hadoop/hdfs
$mkdir -p /hadoop/tmp
$mkdir -p /hadoop/log
$mkdir -p /usr/java                               ###java安装路径
$mkdir -p /usr/hadoop                             ###hadoop安装路径
$chmod -R 777 /hadoop

可以根据自己的情况确定安装路径。

安装Java

1. 下载JDK,并安装,建议安装JDK 1.7。本次下载 jdk-7u60-linux-x64.tar.gz

http://www.oracle.com/technetwork/java/javase/downloads/index.html

$tar -zxvf jdk-7u60-linux-x64.tar.gz
$mv jdk1.7.0_60 java

注释:下载的java 包类型不同,安装略有不同。

2. 配置Java 环境

可以修改/etc/profile,也可以修改自己home目录下的~/.profile(ksh)或者~/.bash_profile(bash),本次安装是bash,所以在.bash_profile 末尾添加

export JAVA_HOME=/usr/java/javaexport CLASSPATH=.:$JAVA_HOME/lib/tools.jar:/lib/dt.jarexport PATH=$JAVA_HOME/bin:$PATH

使环境立即生效,执行

$source .bash_profile

3. 检查Java是否安装成功

$ java -version
java version "1.7.0_60"
Java(TM) SE Runtime Environment (build 1.7.0_60-b19)
Java HotSpot(TM) 64-Bit Server VM (build 24.60-b09, mixed mode)

配置SSH 无密码登录

hadoop1 上

$ mkdir .ssh
$ cd .ssh
$ ssh-keygen -t rsa
Generating public/private rsa key pair.
Enter file in which to save the key (/export/home/zilzhang/.ssh/id_rsa):
Enter passphrase (empty for no passphrase):
Enter same passphrase again:
Your identification has been saved in ~/.ssh/id_rsa.
Your public key has been saved in ~/.ssh/id_rsa.pub.
The key fingerprint is:
b0:76:89:6a:44:8b:cd:fc:23:a4:3f:69:55:3f:83:e3 ...
$ ls -lrt
total 2
-rw-------   1     887 Jun 30 02:10 id_rsa
-rw-r--r--   1     232 Jun 30 02:10 id_rsa.pub
$ touch authorized_keys
$ cat id_rsa.pub >> authorized_keys

hadoop2和hadoop3上,同样生成公钥和私钥。

[hadoop2]$ mv id_rsa.pub pub2
[hadoop3]$ mv id_rsa.pub pub3

把pub2,pub3都scp到hadoop1上,然后

$ cat pub2 >> authorized_keys
$ cat pub3 >> authorized_keys

把authorized_keys scp到hadoop2和hadoop3上,这样就可以免密码登录了。

一言以蔽之,就是在每台node上生成公钥和私钥,把所有公钥的内容汇总成authorized_keys,并把authorized_keys分发到集群所有node上相同的目录,这样每个node都拥有整个集群node的公钥,互相之间就可以免密码登录了。

验证免密码登录,在hadoop1上:

$ ssh haoop1
ssh: Could not resolve hostname haoop1: Name or service not known
[[email protected] hadoop]$ ssh hadoop1
The authenticity of host 'hadoop1 (192.168.1.1)' can't be established.
RSA key fingerprint is 18:85:c6:50:0c:15:36:9c:55:34:d7:ab:0e:1c:c7:0f.
Are you sure you want to continue connecting (yes/no)? yes
Warning: Permanently added 'hadoop1' (RSA) to the list of known hosts.

        #################################################################
        #                                                               #
        #       This system is for the use of authorized users only.    #
        #       Individuals using this computer system without          #
        #       authority, or in excess of their authority, are         #
        #       subject to having all of their activities on this       #
        #       system monitored and recorded by system personnel.      #
        #                                                               #
        #       In the course of monitoring individuals improperly      #
        #       using this system, or in the course of system           #
        #       maintenance, the activities of authorized users         #
        #       may also be monitored.                                  #
        #                                                               #
        #       Anyone using this system expressly consents to such     #
        #       monitoring and is advised that if such monitoring       #
        #       reveals possible evidence of criminal activity,         #
        #       system personnel may provide the evidence of such       #
        #       monitoring to law enforcement officials.                #
        #                                                               #
        #       This system/database contains restricted data.          #
        #                                                               #
        #################################################################

[hadoop1 ~]$

安装Hadoop

1. 下载与解压(所有节点)

$ wget http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-2.2.0/hadoop-2.2.0.tar.gz
$ tar -zxvf hadoop-2.2.0.tar.gz
$ mv hadoop-2.2.0 /usr/hadoop

一下都运行在haoop1上

2. 配置环境变量,在.bash_profile末尾添加

export HADOOP_HOME=/usr/hadoop

export HADOOP_MAPARED_HOME=${HADOOP_HOME}

export HADOOP_COMMON_HOME=${HADOOP_HOME}

export HADOOP_HDFS_HOME=${HADOOP_HOME}

export YARN_HOME=${HADOOP_HOME}

export HADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop

export HDFS_CONF_DIR=${HADOOP_HOME}/etc/hadoop

export YARN_CONF_DIR=${HADOOP_HOME}/etc/hadoop

export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

source .bash_profile

3. $HADOOP_HOME/etc/hadoop/hadoop-env.sh,末尾添加

export JAVA_HOME=/usr/java/java

4. $HADOOP_HOME/etc/hadoop/core-site.xml 添加

<property>

<name>hadoop.tmp.dir</name>

<value>/hadoop/tmp</value>

<description>A base for other temporary directories.</description>

</property>

<property>

<name>fs.default.name</name>

<value>hdfs://192.168.1.1:9000</value>

</property>

5. $HADOOP_HOME/etc/hadoop/slaves 内容变为(datanode)

192.168.1.2

192.168.1.3

6. $HADOOP_HOME/etc/hadoop/hdfs-site.xml 添加

<property>

<name>dfs.replication</name>

<value>3</value>

</property>

<property>

<name>dfs.namenode.name.dir</name>

<value>file:/hadoop/hdfs/name</value>

<final>true</final>

</property>

<property>

<name>dfs.federation.nameservice.id</name>

<value>ns1</value>

</property>

<property>

<name>dfs.namenode.backup.address.ns1</name>

<value>192.168.1.1:50100</value>

</property>

<property>

<name>dfs.namenode.backup.http-address.ns1</name>

<value>192.168.1.1:50105</value>

</property>

<property>

<name>dfs.federation.nameservices</name>

<value>ns1</value>

</property>

<property>

<name>dfs.namenode.rpc-address.ns1</name>

<value>192.168.1.1:9000</value>

</property>

<property>

<name>dfs.namenode.rpc-address.ns2</name>

<value>192.168.1.1:9000</value>

</property>

<property>

<name>dfs.namenode.http-address.ns1</name>

<value>192.168.1.1:23001</value>

</property>

<property>

<name>dfs.namenode.http-address.ns2</name>

<value>192.168.1.1:13001</value>

</property>

<property>

<name>dfs.dataname.data.dir</name>

<value>file:/hadoop/hdfs/data</value>

<final>true</final>

</property>

<property>

<name>dfs.namenode.secondary.http-address.ns1</name>

<value>192.168.1.1:23002</value>

</property>

<property>

<name>dfs.namenode.secondary.http-address.ns2</name>

<value>192.168.1.1:23002</value>

</property>

<property>

<name>dfs.namenode.secondary.http-address.ns1</name>

<value>192.168.1.1:23003</value>

</property>

<property>

<name>dfs.namenode.secondary.http-address.ns2</name>

<value>192.168.1.1:23003</value>

</property>

7. $HADOOP_HOME/etc/hadoop/yarn-site.xml 添加

<property>

<name>yarn.resourcemanager.address</name>

<value>192.168.1.1:18040</value>

</property>

<property>

<name>yarn.resourcemanager.scheduler.address</name>

<value>192.168.1.1:18030</value>

</property>

<property>

<name>yarn.resourcemanager.webapp.address</name>

<value>192.168.1.1:50030</value>

</property>

<property>

<name>yarn.resourcemanager.resource-tracker.address</name>

<value>192.168.1.1:18025</value>

</property>

<property>

<name>yarn.resourcemanager.admin.address</name>

<value>192.168.1.1:18141</value>

</property>

<property>

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce.shuffle</value>

</property>

8. $HADOOP_HOME/etc/hadoop/httpfs-site.xml 添加

<property>

<name>hadoop.proxyuser.root.hosts</name>

<value>192.168.1.1</value>

</property>

<property>

<name>hadoop.proxyuser.root.groups</name>

<value>*</value>

</property>

9. $HADOOP_HOME/etc/hadoop/mapred-site.xml 添加

<property>

<name>mapreduce.framework.name</name>

<value>yarn</value>

<description>Execution framework set to Hadoop YARN.</description>

</property>

这个是说明把job放到yarn 上去跑。

10. 配置同步到其他datanode上

$ scp ~/.bash_profile hadoop2:~/.bash_profile
$ scp $HADOOP_HOME/etc/hadoop/hadoop-env.sh hadoop2:$HADOOP_HOME/etc/hadoop/
$ scp $HADOOP_HOME/etc/hadoop/core-site.xml hadoop2:$HADOOP_HOME/etc/hadoop/
$ scp $HADOOP_HOME/etc/hadoop/slaves hadoop2:$HADOOP_HOME/etc/hadoop/
$ scp $HADOOP_HOME/etc/hadoop/hdfs-site.xml hadoop2:$HADOOP_HOME/etc/hadoop/
$ scp $HADOOP_HOME/etc/hadoop/yarn-site.xml hadoop2:$HADOOP_HOME/etc/hadoop/
$ scp $HADOOP_HOME/etc/hadoop/httpfs-site.xml hadoop2:$HADOOP_HOME/etc/hadoop/
$ scp $HADOOP_HOME/etc/hadoop/mapred-site.xml hadoop2:$HADOOP_HOME/etc/hadoop/

把hadoop2改成hadoop3,,把配置同步到hadoop3上

启动Hadoop集群

1. 格式化

hadoop namenode -format

2. 启动hdfs

start-dfs.sh

3. 启动yarn

start-yarn.sh

4. 启动httpfs

httpfs.sh start

测试hadoop集群

1. hadoop1,看看进程是否已经开启

$ jps
8606 NameNode
4640 Bootstrap
17007 Jps
16077 ResourceManager
8781 SecondaryNameNode

这些进程必须都有

2. 在hadoop2 上看进程是否开启

$ jps
5992 Jps
5422 NodeManager
3292 DataNode

这些进程必须都有

3. hadoop fs -ls /    看是否可以列出文件

4. 测试hadoop job

hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.2.0.jar wordcount /input /output7

如果运行正常,可以再job monitor页面看到job运行状况。

总结:在安装过程中会遇到各种问题,这里不一一列示,以免太过啰嗦。

Hadoop Yarn 安装

时间: 2024-10-12 16:08:18

Hadoop Yarn 安装的相关文章

Hadoop YARN 安装-单机伪分布式环境

本文是根据Hadoop官网安装教程写的Hadoop YARN在单机伪分布式环境下的安装报告,仅供参考. 1. 安装环境如下: 操作系统:Ubuntu14.04 Hadoop版本:hadoop-2.5.0 Java版本:openjdk-1.7.0_55 2. 下载Hadoop-2.5.0,下载地址 http://mirrors.cnnic.cn/apache/hadoop/common/hadoop-2.5.0/hadoop-2.5.0.tar.gz 本文的$HADOOP_HOME为:/home/

hadoop&spark安装(上)

硬件环境: hddcluster1 10.0.0.197 redhat7 hddcluster2 10.0.0.228 centos7  这台作为master hddcluster3 10.0.0.202 redhat7 hddcluster4 10.0.0.181 centos7 软件环境: 关闭所有防火墙firewall openssh-clients openssh-server java-1.8.0-openjdk java-1.8.0-openjdk-devel hadoop-2.7.

决胜大数据时代:Hadoop&amp;Yarn&amp;Spark企业级最佳实践(8天完整版脱产式培训版本)

Hadoop.Yarn.Spark是企业构建生产环境下大数据中心的关键技术,也是大数据处理的核心技术,是每个云计算大数据工程师必修课. 课程简介 大数据时代的精髓技术在于Hadoop.Yarn.Spark,是大数据时代公司和个人必须掌握和使用的核心内容. Hadoop.Yarn.Spark是Yahoo!.阿里淘宝等公司公认的大数据时代的三大核心技术,是大数据处理的灵魂,是云计算大数据时代的技术命脉之所在,以Hadoop.Yarn.Spark为基石构建起来云计算大数据中心广泛运行于Yahoo!.阿

Storm on Yarn 安装配置

1.背景知识 在不修改Storm任何源代码的情况下,让Storm运行在YARN上,最简单的实现方法是将Storm的各个服务组件(包括Nimbus和Supervisor),作为单独的任务运行在YARN上,当前比较有名的“Storm On YARN”实现是由yahoo!开源的,它基本实现了上述描述的功能,下面具体进行说明:(1) YARN-Storm Client提供了一系列Shell命令供用户控制YARN上的Storm服务,比如构建一个Storm集群命令如下:storm-yarn launch <

Hadoop Yarn on Docker

搭建Hadoop Yarn on Docker 一.概览 Docker基于Linux Container技术整合了一堆易用的接口用于构建非常轻量级的虚拟机.Docker Container Executor(DCE)使得Yarn NodeManager服务可以将其container进程运行在Docker容器中.用户可以自定义运行Yarn container的Docker镜像.这些container提供了自定义的.与外部NodeManger隔离的运行环境,还可以指定安装与NodeManager不同

Hadoop实战安装

环境:centos 6.4 X64 192.168.2.20 Master 192.168.2.21 Hadoop1 192.168.2.22 Hadoop2 准备工作: 1.安装基本开发工具:(所有服务器) yum groupinstall "Development Tools" -y 2.设置IP和hostname映射关系 (所有服务器) vi /etc/hosts  修改内容如下 192.168.2.20 Master 192.168.2.21 Hadoop1 192.168.2

Hadoop学习之第一章节:Hadoop配置安装

一.配置虚拟机三台 1.网络配置 虚拟化软件: Vmware Workstations  10.7z Linux系统:  Centos 6.5-x86_64 采用4台安装Linux环境的机器来构建一个小规模的分布式集群. 集群机器详细信息 1.虚拟化的网络配置方式:桥接网络 2.IP地址设置为固定IP地址 3.主机名配置,需要修改一下地方 (1)配置vi  /etc/hostname (2)配置vi /etc/sysconfig/network (3)配置vi /etc/hosts 4.关闭防火

Hadoop Linux安装

Hadoop Linux安装 步骤流程 1.硬件准备 2.软件准备(推荐CDH) 3.将Hadoop安装包分发到各个节点下 4.安装JDK 5.修改/etc/hosts配置文件 6.设置SSH免密码登陆 7.修改配置文件 8.启动服务 9.验证 1.下载软件 1.1 apache版本 下载链接:http://www.apache.org/ 1.2 CDH 下载链接:http://www.cloudera.com/ 2.安装JDK.解压Hadoop安装包并分发到各个节点 3.修改/etc/host

storm on yarn安装时 提交到yarn失败 failed

最近在部署storm on yarn ,部署参考文章 http://www.tuicool.com/articles/BFr2Yvhttp://blog.csdn.net/jiushuai/article/details/18729367 在安装完zookeeper,配置好storm 和storm on yarn后,启动zookeeper,其中zookeeper的port为2181,然后通过mvn package 编译工程,发现会出现错误,然后使用mvn packet -DskipTests 重