『转载』hadoop 1.X到2.X的变化

表1新旧hadoop脚本/变量/位置变化表

改变项	原框架中	新框架中（Yarn）	备注
配置文件位置	${hadoop_home_dir} /conf	${hadoop_home_dir} /etc/hadoop/	Yarn 框架也兼容老的${hadoop_home_dir}/conf 位置配置，启动时会检测是否存在老的 conf 目录，如果存在将加载 conf 目录下的配置，否则加载 etc 下配置
启停脚本	${hadoop_home_dir} /bin/start（stop）-all.sh	${hadoop_home_dir} /sbin/start（stop）-dfs.sh ${hadoop_home_dir}/bin /start(stop)-all.sh	新的 Yarn 框架中启动分布式文件系统和启动Yarn 分离，启动 / 停止分布式文件系统的命令位于 ${hadoop_home_dir}/sbin 目录下，启动/ 停止 Yarn 框架位于${hadoop_home_dir}/bin/ 目录下
JAVA_HOME 全局变量	${hadoop_home_dir} /bin/start-all.sh 中	${hadoop_home_dir}/etc /hadoop/hadoop-env.sh ${hadoop_home_dir}/etc /hadoop/Yarn-env.sh	Yarn 框架中由于启动 hdfs 分布式文件系统和启动 MapReduce 框架分离，JAVA_HOME 需要在hadoop-env.sh 和 Yarn-env.sh 中分别配置
HADOOP_LOG_DIR全局变量	不需要配置	${hadoop_home_dir}/etc /hadoop/hadoop-env.sh	老框架在 LOG，conf，tmp 目录等均默认为脚本启动的当前目录下的 log,conf，tmp 子目录Yarn 新框架中 Log 默认创建在 Hadoop 用户的 home 目录下的 log 子目录，因此最好在${hadoop_home_dir}/etc/hadoop/hadoop-env.sh配置 HADOOP_LOG_DIR，否则有可能会因为你启动hadoop 的用户的 .bashrc 或者 .bash_profile 中指定了其他的 PATH 变量而造成日志位置混乱，而该位置没有访问权限的话启动过程中会报错

由于新的 Yarn 框架与原 Hadoop MapReduce 框架相比变化较大，核心的配置文件中很多项在新框架中已经废弃，而新框架中新增了很多其他配置项，看下表所示会更加清晰：

表2 新旧hadoop框架配置项变化表

配置文件	配置项	Hadoop 0.20.X 配置	Hadoop 0.23.X 配置	说明
core-site.xml	系统默认分布式文件 URI	fs.default.name	fs.defaultFS
hdfs-site.xml	DFS name node 存放 name table 的目录	dfs.name.dir	dfs.namenode.name.dir	新框架中 name node 分成 dfs.namenode.name.dir( 存放 naname table 和 dfs.namenode.edits.dir（存放 edit 文件），默认是同一个目录
	DFS data node 存放数据 block 的目录	dfs.data.dir	dfs.datanode.data.dir	新框架中 DataNode 增加更多细节配置，位于 dfs.datanode. 配置项下，如dfs.datanode.data.dir.perm（datanode local 目录默认权限）；dfs.datanode.address（datanode 节点监听端口）；等
	分布式文件系统数据块复制数	dfs.replication	dfs.replication	新框架与老框架一致，值建议配置为与分布式 cluster 中实际的 DataNode 主机数一致
mapred-site.xml	Job 监控地址及端口	mapred.job.tracker	无	新框架中已改为 Yarn-site.xml 中的 resouceManager 及 nodeManager 具体配置项，新框架中历史 job 的查询已从 Job tracker 剥离，归入单独的mapreduce.jobtracker.jobhistory 相关配置，
	第三方 MapReduce 框架	无	mapreduce.framework.name	新框架支持第三方 MapReduce 开发框架以支持如 SmartTalk/DGSG 等非 Yarn 架构，注意通常情况下这个配置的值都设置为 Yarn，如果没有配置这项，那么提交的 Yarn job 只会运行在 locale 模式，而不是分布式模式。

Yarn-site.xml	The address of the applications manager interface in the RM	无	Yarn.resourcemanager.address	新框架中 NodeManager 与 RM 通信的接口地址
	The address of the scheduler interface	无	Yarn.resourcemanager.scheduler.address	同上，NodeManger 需要知道 RM 主机的 scheduler 调度服务接口地址
	The address of the RM web application	无	Yarn.resourcemanager.webapp.address	新框架中各个 task 的资源调度及运行状况通过通过该 web 界面访问
	The address of the resource tracker interface	无	Yarn.resourcemanager.resource-tracker.address	新框架中 NodeManager 需要向 RM 报告任务运行状态供 Resouce 跟踪，因此 NodeManager 节点主机需要知道 RM 主机的 tracker 接口地址

时间： 2024-10-11 11:51:21

『转载』hadoop 1.X到2.X的变化的相关文章

『转载』Debussy快速上手（Verdi相似）

『转载』Debussy快速上手(Verdi相似) Debussy 是NOVAS Software, Inc(思源科技)发展的HDL Debug & Analysis tool,这套软体主要不是用来跑模拟或看波形,它最强大的功能是:能够在HDL source code.schematic diagram.waveform.state bubble diagram之间,即时做trace,协助工程师debug. 可能您会觉的:只要有simulator如ModelSim就可以做debug了,我何必再学这

『转载』hadoop2.x常用端口、定义方法及默认端口

1.问题导读 DataNode的http服务的端口.ipc服务的端口分别是哪个? NameNode的http服务的端口.ipc服务的端口分别是哪个? journalnode的http服务的端口.ipc服务的端口分别是哪个? ResourceManager的http服务端口是哪个? NodeManager的http服务端口是哪个? Master的http服务的端口.ipc服务的端口分别是哪个? 3888是谁的端口,用来做什么? Hadoop集群的各部分一般都会使用到多个端口,有些是daemon之间

字符数组赋值『转载』

main() { char s[30]; strcpy(s, "Good News!"); /*给数组赋字符串*/ . . . } 上面程序在编译时, 遇到char s[30]这条语句时, 编译程序会在内存的某处留出连续30个字节的区域, 并将第一个字节的地址赋给s.当遇到strcpy( strcpy 为 Turbo C2.0的函数)时, 首先在目标文件的某处建立一个"Good News!/0" 的字符串. 其中/0表示字符串终止, 终止符是编译时自动加上的, 然

『转载』使用TortoiseSVN客户端

原文地址:https://www.sinacloud.com/doc/sae/tutorial/code-deploy.html#shi-yong-git-ke-hu-duan TortoiseSVN客户端注:如果使用TortoiseSVN 1.8.x部署代码发生问题,请尝试更新至最新版本或者使用1.8以下的版本. 在Windows下推荐使用乌龟(Tortoise)SVN客户端. TortoiseSVN 是 Subversion 版本控制系统的一个免费开源客户端,可以超越时间的管理文件和目录.

『转载』 SSL协议与数字证书原理

SSL协议与数字证书原理 1 SSL(Secure Socket Lclientyer)是netscclientpe公司设计的主要用于weserver的安全传输协议.这种协议在WESERVER上获得了广泛的应用. SSL在TCP之上建立了一个加密通道,通过这一层的数据经过了加密,因此达到保密的效果. SSL协议分为两部分:Hclientndshclientke Protocol和Record Protocol,. 其中Hclientndshclientke Protocol用来协商密钥,协议的大

【转载】虫师『性能测试』文章大汇总

虫师『性能测试』文章大汇总为了方便阅读,我重新整理本文,将包含本博客所有与性能测试有关的内容. ------------------------------------------- 近两年市面上的性能测试书籍很多了,但大部分书都在讲loadrunner的操作技巧项目与项目实践.我不认为有什么问题,因为loadrunner性能测试工具已经占据很大市场.loadrunner是非常的强大,但我们在做性能测试时,往往都以“loadrunner的模式”在思考如何进行性能测试.loadrunner只是一

『转』数学专辑

1.burnside定理,polya计数法这个大家可以看brudildi的<组合数学>,那本书的这一章写的很详细也很容易理解.最好能完全看懂了,理解了再去做题,不要只记个公式. *简单题:(直接用套公式就可以了) pku2409 Let it Bead http://acm.pku.edu.cn/JudgeOnline/problem?id=2409 pku2154 Color http://acm.pku.edu.cn/JudgeOnline/problem?id=2154 pku12

『细节』是什么

图片来自网络,作者不详只要是职场人士,谈及『细节』二字估计很容易让人联想到『细节决定成败』这句话.由于这句话无人不知.无人不晓,以至于容易将『细节』误以为是口号.就我在工作中的感受,发现确实大多数人是将『关注细节』当作是口号.正因如此,我想借这篇文章与大家探讨一下我所理解的『细节』究竟是什么. 首先,『细节』代表态度--将工作做到位.『做到位』与『做完』是全然不同的工作水准,前者包含后者但比后者有更深的内涵.其一,将工作努力做到不会出错,并在出错时从根源上加以解决和预防.对于软件工程师来说,我

『教程』L0、L1与L2范数_简化理解

『教程』L0.L1与L2范数一.L0范数.L1范数.参数稀疏 L0范数是指向量中非0的元素的个数.如果我们用L0范数来规则化一个参数矩阵W的话,就是希望W的大部分元素都是0,换句话说,让参数W是稀疏的. 既然L0可以实现稀疏,为什么不用L0,而要用L1呢?一是因为L0范数很难优化求解(NP难问题),二是L1范数是L0范数的最优凸近似,而且它比L0范数要容易优化求解.所以大家才把目光和万千宠爱转于L1范数. 总结:L1范数和L0范数可以实现稀疏,L1因具有比L0更好的优化求解特性而被广泛应用.