hadoop学习(二) 分布式搭建配置

1、组件规划

2、配置

2.1、配置core-site.xml

<!--指定namenode所在机器的位置和访问交互端口号-->
<property>
    <name>fs.defaultFS</name>
    <value>hdfs://dist1.lv.org:8020</value>
</property>
<!--指定Hadoop运行时的临时目录地址-->
<property>
    <name>hadoop.tmp.dir</name>
    <value>/opt/modules/hadoop-2.5.0/data/tmp</value>
</property>

2.2、配置hdfs-site.xml

<!--指定系统中文件的块的副本个数(默认为3,若实际为3时可不设置)-->
<property>
    <name>dfs.replication</name>
    <value>3</value>
</property>
<!--指定secondaryNameNode所在的主机 端口-->
<property>
    <name>dfs.namenode.secondary.http-address</name>
    <value>dist3.lv.org:50090</value>
</property>

2.3、配置mapred-site.xml

<!--指定mapreduce运行在YARN上-->
<property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
</property>
<!--配置mapreduce历史服务器-->
<property>
    <name>mapreduce.jobhistory.address</name>
    <value>dist1.lv.org:10020</value>
</property>
<!--配置mapreduce历史服务器WEB服务-->
<property>
    <name>mapreduce.jobhistory.webapp.address</name>
    <value>dist1.lv.org:19888</value>
</property>

2.4、配置slaves

192.168.1.121 dist1.lv.org
192.168.1.123 dist2.lv.org
192.168.1.125 dist3.lv.org

2.5、配置yarn-site.xml

<!--指定resourcemanager所在机器的位置-->
<property>
    <name>yarn.resourcemanager.hostname</name>
    <value>dist2.lv.org</value>
</property>
<!--告知yarn上运行的是mapreduce-->
<property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
</property><!--启用日至聚集功能--><property>
    <name>yarn.log-aggregation-enable</name>
    <value>true</value>
</property>
<!--设置在hdfs上聚集的日志保存的最长时间-->
<property>
    <name>yarn.log-aggregation.retain-seconds</name>
    <value>106800</value>
</property>

2.6、配置mapred-site.xml

<property>
    <name>mapreduce.framework.name</name>
	<value>yarn</value>
</property>
<property>
	<name>mapreduce.jobhistory.address</name>
	<value>dist1.lv.org:10020</value>
</property>
<property>
	<name>mapreduce.jobhistory.webapp.address</name>
	<value>dist1.lv.org:19888</value>
</property>
时间: 2024-11-09 02:37:24

hadoop学习(二) 分布式搭建配置的相关文章

Hadoop学习笔记(4) ——搭建开发环境及编写Hello World

Hadoop学习笔记(4) ——搭建开发环境及编写Hello World 整个Hadoop是基于Java开发的,所以要开发Hadoop相应的程序就得用JAVA.在linux下开发JAVA还数eclipse方便. 下载 进入官网:http://eclipse.org/downloads/. 找到相应的版本进行下载,我这里用的是eclipse-SDK-3.7.1-linux-gtk版本. 解压 下载下来一般是tar.gz文件,运行: $tar -zxvf eclipse-SDK-3.7.1-linu

Hadoop学习笔记(10) ——搭建源码学习环境

Hadoop学习笔记(10) ——搭建源码学习环境 上一章中,我们对整个hadoop的目录及源码目录有了一个初步的了解,接下来计划深入学习一下这头神象作品了.但是看代码用什么,难不成gedit?,单步调试呢? 看程序不能调那多痛苦啊,想看跟踪一下变量,想看一下执行路径都难. 所以这里,我们得把这个调试环境搭建起来.Hadoop的主要代码是用java编写的,所以这里就选用eclipse作为环境. Hadoop目录下,本身就可以为作eclipse的一个工程来操作,但这里我不想,我想自己来建一个工程,

Hadoop的伪分布式搭建

我们在搭建伪分布式Hadoop环境,需要将一系列的配置文件配置好. 一.配置文件 1. 配置文件hadoop-env.sh export JAVA_HOME=/opt/modules/jdk1.7.0_67 2. 配置core-site.xml dfs.defaultFS hdfs://hostname:8020 hadoop.tmp.dir /opt/modules/hadoop-2.5.0/data/tmp 配置hdfs-site.xml dfs.replication 3 配置yarn-s

Python学习(二) Django安装配置

上一节介绍了如何搭建Python的开发环境,这次介绍一下如何搭建Django的开发环境. 第一.下载Django Django跟Python的版本对应 Django version Python versions 1.4 2.5, 2.6, 2.7 1.7, 1.8 2.7 and 3.2, 3.3, 3.4 1.9 2.7, 3.3, 3.4, 3.5 这里我选择的是1.8.2,下载地址:https://www.djangoproject.com/download/ 第二.安装Django 下

hadoop学习二:hadoop基本架构与shell操作

1.hadoop1.0与hadoop2.0的区别: hadoop1.0生态如下图: hadoop2.0生态: 2.HDFS描述:HDFS是google的GFS的开源克隆,HDFS的架构如下图: 1) NameNode:管理HDFS的名称空间,管理数据块映射信息,配置副本策略,处理客户端读写请求. 2) StandbyNameNode:NameNode的热备,定期合并fsimage和fsedits,推送给NameNode,当Active NameNode出现故障时,快速切换为新的 Active N

hadoop2.2.0伪分布式搭建

一.准备linux环境 1.更改VMware适配器设置 由于是在单机环境下进行学习的,因此选择适配器模式是host-only模式,如果想要联网,可以选择桥接模式,配置的方式差不多. 点击VMware快捷方式,右键打开文件所在位置 -> 双击vmnetcfg.exe -> VMnet1 host-only ->修改subnet ip 设置网段:192.168.85.0 子网掩码:255.255.255.0 -> apply -> ok 回到windows --> 打开网络

ubuntu + hadoop2.5.2分布式环境配置

ubuntu + hadoop2.5.2分布式环境配置 我之前有详细写过hadoop-0.20.203.0rc1版本的环境搭建 hadoop学习笔记——环境搭建 http://www.cnblogs.com/huligong1234/p/3533382.html 本篇部分细节就不多说. 一.基础环境准备系统:(VirtualBox) ubuntu-12.04.2-desktop-i386.isohadoop版本:hadoop-2.5.2jdk版本:jdk-6u26-linux-i586.bin

Hadoop学习笔记—22.Hadoop2.x环境搭建与配置

自从2015年花了2个多月时间把Hadoop1.x的学习教程学习了一遍,对Hadoop这个神奇的小象有了一个初步的了解,还对每次学习的内容进行了总结,也形成了我的一个博文系列<Hadoop学习笔记系列>.其实,早在2014年Hadoop2.x版本就已经开始流行了起来,并且已经成为了现在的主流.当然,还有一些非离线计算的框架如实时计算框架Storm,近实时计算框架Spark等等.相信了解Hadoop2.x的童鞋都应该知道2.x相较于1.x版本的更新应该不是一丁半点,最显著的体现在两点: (1)H

Hadoop学习笔记(3)——分布式环境搭建

Hadoop学习笔记(3) ——分布式环境搭建 前面,我们已经在单机上把Hadoop运行起来了,但我们知道Hadoop支持分布式的,而它的优点就是在分布上突出的,所以我们得搭个环境模拟一下. 在这里,我们采用这样的策略来模拟环境,我们使用3台ubuntu机器,1台为作主机(master),另外2台作为从机(slaver).同时,这台主机,我们就用第一章中搭建好的环境来. 我们采用与第一章中相似的步骤来操作: 运行环境搭建 在前面,我们知道,运行hadoop是在linux上运行的.所以我们单机就在