hadoop备战：yarn框架的搭建（mapreduce2）

昨天没有写好了没有更新，今天一起更新，yarn框架也是刚搭建好的。我这里把hadoop放在了我的个人用户hadoop下了，你也可以尝试把它放在/usr/local,考虑的问题就相对多点。

基本的软硬件配置：

x86台式机，window7 64位系统

wmware虚拟机(x86的台式机至少是4G内存，才能开2台虚机)

centos6.4操作系统

hadoop-2.2.0.tar.gz

jdk-6u24-linux-i586.bin

WinScp 远程文件传输工具，很好用。可以用于windows和虚拟机Linux之间文件相互拷贝。

一、root下的配置

a) 修改主机名：vi /etc/sysconfig/network

Master, slave1,

b) 解析Ip: vi /etc/hosts

因为采用的是Host-only连接网络，主机上Vmnet1的ip:192.168.137.1

192.168.137.50 master

192.168.137.55 slave1

c) 调试网络：

采用自定的vmnet1,默认是host-only这种方式，连接网络，配置网络。

修改后记得调用 service network restart

确保三台虚拟机能够相互ping通。（很好弄的，我现在的问题如何让虚拟机连接外网，我会在最近的博客中，弄清楚，继续关注我的博客）

d) 关闭防火墙

查看：service  iptables  status

关闭：service  iptables  stop

查看防火墙有无自启动：

Chkconfig –-list | grep  iptables

关闭自启动：

Chkconfig  iptables  off

二、hadoop用户下的配置

a) 创建用户hadoop,设置密码，进入用户

useradd hadoop

passwd hadoop

b) master创建公私秘钥

分别在两台虚拟机上生成：ssh-keygen –t rsa.

.ssh是一个隐藏的文件 #cd .ssh可进入

1)将id_rsa.pub复制给authorized_keys

Cp id_rsa.pub authorized_keys

2)将master中的authorized_keys复制给slave1的/home/hadoop/.ssh下

scp authorized_keys [email protected]:/home/hadoop/.ssh/

3)将master拷贝过来的authorized_keys复制到slave1本身所创的authorized_keys下

4）验证ssh的免密码生效：

a)可以尝试发个小文件给对方机器，如果没有提示要求密码，那么你的免密码就生效了。

b)也可以直接ssh+对方机器名（hostname改过之后），可以进入对方用户环境则说明生效。

c) 将hadoop拷贝复制到对应的master机子中/home/hadoop/

配置hadoop用户的环境变量 vi /etc/profile,添加如下内容：

#set java enviroment

export JAVA_HOME=/usr/local/jdk

export CLASSPATH=.:$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/lib

export PATH=$PATH:$JAVA_HOME/bin:$JAVA_HOME/jre/bin

# Hadoop

export HADOOP_PREFIX="/home/hadoop/hadoop"

export PATH=$PATH:$HADOOP_PREFIX/bin:$HADOOP_PREFIX/sbin

export HADOOP_COMMON_HOME=${HADOOP_PREFIX}

export HADOOP_HDFS_HOME=${HADOOP_PREFIX}

export HADOOP_MAPRED_HOME=${HADOOP_PREFIX}

export HADOOP_YARN_HOME=${HADOOP_PREFIX}

注：su + 用户名实现切换用户。

d) 编辑/home/hadoop/etc/hadoop/hadoop-env.sh

export JAVA_HOME=/usr/local/jdk

e) 编辑/home/hadoop/etc/hadoop/yarn-env.sh

export JAVA_HOME=/usr/local/jdk

f) 编辑/home/hadoop/etc/hadoop/core-site.xml

<property>

<name>fs.defaultFS</name>

<value>hdfs://master:9000</value>

</property>

<property>

<name>hadoop.tmp.dir</name>



<value>/home/hadoop/hadoop/tmp</value>

</property>

g) 编辑/home/hadoop/etc/hadoop/hdfs-site.xml

<property>

<name>dfs.replication</name>



<value>1</value>

</property>

<property>

<name>dfs.namenode.name.dir</name>



<value>file:/home/hadoop/hadoop/dfs/namenode</value>

<final>true</final>

</property>

<property>

<name>dfs.datanode.data.dir</name>



<value>file:/home/hadoop/hadoop/dfs/datanode</value>

</property>

h) 编辑/home/hadoop/hadoop/etc/hadoop/yarn-site.xml

<property>

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

<property>

<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>

<value>org.apache.hadoop.mapred.ShuffleHandler</value>

</property>

<property>

<name>yarn.resourcemanager.hostname</name>

<value>master</value>

</property>

h) 编辑/home/hadoop/hadoop/etc/hadoop/mapred-site.xml

注：默认没有mapred-site.xml文件，copy mapred-site.xml.template 一份为 mapred-site.xml即可

<property>

<name>mapreduce.framework.name</name>

<value>yarn</value>

<final>true</final>

</property>

三、启动和测试

1、启动Hadoop

1.1、第一次启动需要在Master.Hadoop 执行format ： hdfs namenode -format ：

格式化成功，你能找到一句话：

1.2、在Master.Hadoop执行 start-dfs.sh ：

在Slave1验证启动进程如下：

1.3、在Master执行 start-yarn.sh ：

在Slave1 验证启动进程如下：

四、演示案例：（单词计数）

1）先实现下面的生成文件夹命令：

2）本地创建三个文件 micmiu-01.txt、micmiu-03.txt、micmiu-03.txt, 分别写入如下内容：

micmiu-01.txt：

Hi Michael welcome to Hadoop

more see micmiu.com

micmiu-02.txt：

Hi Michael welcome to BigData

more see micmiu.com

micmiu-03.txt：

Hi Michael welcome to Spark

more see micmiu.com

3）然后cd 切换到Hadoop的share/hadoop/mapreduce下执行

[[email protected] mapreduce]$ hadoop jar hadoop-mapreduce-examples-2.2.0.jar wordcount /user/micmiu/wordcount/in /user/micmiu/wordcount/out

ps: hdfs 中 /user/micmiu/wordcount/out 目录不能存在否则运行报错。

5）到此 wordcount的job已经执行完成，执行如下命令可以查看刚才job的执行结果：

hadoop的童鞋们，有问题加关注，评价中说明问题。

hadoop备战：yarn框架的搭建（mapreduce2）

时间： 2024-08-04 22:17:16

hadoop备战：yarn框架的搭建（mapreduce2）的相关文章

Hadoop MapReduceV2(Yarn) 框架

Hadoop MapReduceV2(Yarn) 框架简介原 Hadoop MapReduce 框架的问题对于业界的大数据存储及分布式处理系统来说,Hadoop 是耳熟能详的卓越开源分布式文件存储及处理框架,对于 Hadoop 框架的介绍在此不再累述,读者可参考 Hadoop 官方简介.使用和学习过老 Hadoop 框架(0.20.0 及之前版本)的同仁应该很熟悉如下的原 MapReduce 框架图: 图 1.Hadoop 原 MapReduce 架构从上图中可以清楚的看出原 MapRed

Hadoop MapReduceV2(Yarn) 框架简介[转]

对于业界的大数据存储及分布式处理系统来说,Hadoop 是耳熟能详的卓越开源分布式文件存储及处理框架,对于 Hadoop 框架的介绍在此不再累述,读者可参考 Hadoop 官方简介.使用和学习过老 Hadoop 框架(0.20.0 及之前版本)的同仁应该很熟悉如下的原 MapReduce 框架图: 图 1.Hadoop 原 MapReduce 架构从上图中可以清楚的看出原 MapReduce 程序的流程及设计思路: 首先用户程序 (JobClient) 提交了一个 job,job 的信息会发送

hadoop备战：yarn框架的简介（mapreduce2）

新 Hadoop Yarn 框架原理及运作机制重构根本的思想是将 JobTracker 两个主要的功能分离成单独的组件,这两个功能是资源管理和任务调度 / 监控.新的资源管理器全局管理所有应用程序计算资源的分配,每一个应用的 ApplicationMaster 负责相应的调度和协调.一个应用程序无非是一个单独的传统的 MapReduce 任务或者是一个 DAG( 有向无环图 ) 任务.ResourceManager 和每一台机器的节点管理服务器能够管理用户在那台机器上的进程并能对计算进行组织.

Hadoop新MapReduce框架Yarn详解

简介本文介绍了Hadoop自0.23.0版本后新的MapReduce框架(Yarn)原理,优势,运行机制和配置方法等,着重介绍新的yarn框架相对于原框架的差异及改进,并通过Demo示例详细介绍了在新的Yarn框架下搭建和开发Hadoop程序的方法.读者通过本文中新旧Hadoop MapReduce框架的对比,更深刻理解新的yarn框架技术与那里和设计思想,文中的Demo代码经过微小修改既可用于用户基于Hadoop新框架的实际生产环境. Hadoop MapReduceV2(Yarn)框架简介

Hadoop 新 MapReduce 框架 Yarn 详解

原 Hadoop MapReduce 框架的问题对于业界的大数据存储及分布式处理系统来说,Hadoop 是耳熟能详的卓越开源分布式文件存储及处理框架,对于 Hadoop 框架的介绍在此不再累述,读者可参考 Hadoop 官方简介.使用和学习过老 Hadoop 框架(0.20.0 及之前版本)的同仁应该很熟悉如下的原 MapReduce 框架图: 图 1.Hadoop 原 MapReduce 架构从上图中可以清楚的看出原 MapReduce 程序的流程及设计思路: 首先用户程序 (JobCli

Hadoop学习之YARN框架

转自:http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop-yarn/,非常感谢分享! 对于业界的大数据存储及分布式处理系统来说,Hadoop 是耳熟能详的卓越开源分布式文件存储及处理框架,对于 Hadoop 框架的介绍在此不再累述,读者可参考 Hadoop 官方简介.使用和学习过老 Hadoop 框架(0.20.0 及之前版本)的同仁应该很熟悉如下的原 MapReduce 框架图: 图 1.Hadoop 原 MapReduce

解析Hadoop新一代MapReduce框架Yarn

背景 Yarn是一个分布式的资源管理系统,用以提高分布式的集群环境下的资源利用率,这些资源包括内存.IO.网络.磁盘等等.其产生的原因是为了解决原MapReduce框架的不足.最初MapReduce的committer们还可以周期性的在已有的代码上进行修改,可是随着代码的增加以及原MapReduce框架设计的不足,在原MapReduce框架上进行修改变得原来越困难,所以MapReduce的committer们决定从架构上重新设计MapReduce,使下一代的MapReduce(MRv2/Yarn

更快、更强——解析Hadoop新一代MapReduce框架Yarn（CSDN）

摘要:本文介绍了Hadoop 自0.23.0版本后新的MapReduce框架(Yarn)原理.优势.运作机制和配置方法等:着重介绍新的Yarn框架相对于原框架的差异及改进. 编者按:对于业界的大数据存储及分布式处理系统来说,Hadoop 是耳熟能详的卓越开源分布式文件存储及处理框架,对于 Hadoop 框架的介绍在此不再累述,随着需求的发展,Yarn 框架浮出水面,@依然光荣复兴的博客给我们做了很详细的介绍,读者通过本文中新旧 Hadoop MapReduce 框架的对比,更能深刻理解新的 y

搭建部署Hadoop 之Yarn

Yarn 集群资源管理系统 Yarn 角色及概念 ?Yarn 是 Hadoop 的一个通用的资源管理系统 ? Yarn 角色 – Resourcemanager – Nodemanager – ApplicationMaster – Container – Client ? ResourceManager – 处理客户端请求 – 启动 / 监控 ApplicationMaster – 监控 NodeManager – 资源分配与调度 ? NodeManager – 单个节点上的资源管理 – 处理