Hadoop2.7.1配置NameNode+ResourceManager高可用原理分析

关于NameNode高可靠需要配置的文件有core-site.xml和hdfs-site.xml
关于ResourceManager高可靠需要配置的文件有yarn-site.xml

逻辑结构：

NameNode-HA工作原理：
在一个典型的HA集群中，最好有2台独立的机器的来配置NameNode角色，无论在任何时候，集群中只能有一个NameNode作为Active状态，而另一个是Standby状态，Active状态的NameNode负责集群中所有的客户端操作，这么设置的目的，其实HDFS底层的机制是有关系的，同一时刻一个文件，只允许一个写入方占用，如果出现多个，那么文件偏移量便会混乱，从而导致数据格式不可用，当然状态为Standby的NameNode这时候仅仅扮演一个Slave的角色，以便于在任何时候Active的NameNode挂掉时，能够第一时间，接替它的任务，成为主NameNode，达到一个热备份的效果，在HA架构里面SecondaryNameNode这个冷备角色已经不存在了，为了保持从NameNode时时的与主NameNode的元数据保持一致，他们之间交互通过一系列守护的轻量级进程JournalNode，当任何修改操作在主NameNode上执行时，它同时也会记录修改log到至少半数以上的JornalNode中，这时状态为Standby的NameNode监测到JournalNode里面的同步log发生变化了会读取JornalNode里面的修改log，然后同步到自己的的目录镜像树里面，当发生故障时，Active的NameNode挂掉后，Standby的NameNode会在它成为Active NameNode前，读取所有的JournalNode里面的修改日志，这样就能高可靠的保证与挂掉的NameNode的目录镜像树一致，然后无缝的接替它的职责，维护来自客户端请求，从而达到一个高可用的目的。

为了达到快速容错的掌握全局的目的，Standby角色也会接受来自DataNode角色汇报的块信息，前面只是介绍了NameNode容错的工作原理，下面介绍下，当引入Zookeeper之后，为啥可以NameNode-HA可以达到无人值守，自动切换的容错。

在主备切换上Zookeeper可以干的事：
（1）失败探测在每个NameNode启动时，会在Zookeeper上注册一个持久化的节点，当这个NameNode宕机时，它的会话就会终止，Zookeeper发现之后，就会通知备用的NameNode，Hi，老兄，你该上岗了。
（2）选举机制， Zookeeper提供了一个简单的独占锁，获取Master的功能，如果那个NameNode发现自己得到这个锁，那就预示着，这个NameNode将被激活为Active状态

当然，实际工作中Hadoop提供了ZKFailoverController角色，在每个NameNode的节点上，简称zkfc，它的主要职责如下：

（1）健康监测，zkfc会周期性的向它监控的NameNode发送健康探测命令，从而来确定某个NameNode是否处于健康状态，如果机器宕机，心跳失败，那么zkfc就会标记它处于一个不健康的状态
（2）会话管理，如果NameNode是健康的，zkfc就会在zookeeper中保持一个打开的会话，如果NameNode同时还是Active状态的，那么zkfc还会在Zookeeper中占有一个类型为短暂类型的znode，当这个NameNode挂掉时，
这个znode将会被删除，然后备用的NameNode，将会得到这把锁，升级为主NameNode，同时标记状态为Active，当宕机的NameNode，重新启动时，它会再次注册zookeper，发现已经有znode锁了，便会自动变为Standby状态，如此往复循环，保证高可靠，需要注意，目前仅仅支持最多配置2个NameNode。
（3）master选举，如上所述，通过在zookeeper中维持一个短暂类型的znode，来实现抢占式的锁机制，从而判断那个NameNode为Active状态。

core-site.xml里面

Xml代码

<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://ns1</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/ROOT/server/data-hadoop/hadooptmp</value>
</property>
<property>
<name>io.compression.codecs</name>
<value>org.apache.hadoop.io.compress.GzipCodec,org.apache.hadoop.io.compress.DefaultCodec,org.apache.hadoop.io.compress.BZip2Codec,org.apache.hadoop.io.co
mpress.SnappyCodec</value>
</property>
<property>
<name>fs.trash.interval</name>
<value>0</value>
<description>Number of minutes between trash checkpoints.
If zero, the trash feature is disabled.
</description>
</property>
<property>
<name>ha.zookeeper.quorum</name>
<value>h1:2181,h2:2181,h3:2181</value>
</property>
</configuration>

hdfs-site.xml里面

Xml代码

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!--
Licensed under the Apache License, Version 2.0 (the "License");
you may not use this file except in compliance with the License.
You may obtain a copy of the License at
http://www.apache.org/licenses/LICENSE-2.0
Unless required by applicable law or agreed to in writing, software
distributed under the License is distributed on an "AS IS" BASIS,
WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
See the License for the specific language governing permissions and
limitations under the License. See accompanying LICENSE file.
-->
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<!-- <property>
<name>dfs.client.block.write.replace-datanode-on-failure.enable</name>
<value>false</value>
</property>
-->
<property>
<name>dfs.namenode.name.dir</name>
<value>file:///ROOT/server/data-hadoop/nd</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/ROOT/server/data-hadoop/dd</value>
</property>
<property>
<name>dfs.permissions</name>
<value>false</value>
</property>
<property>
<name>dfs.nameservices</name>
<value>ns1</value>
</property>
<property>
<name>dfs.ha.namenodes.ns1</name>
<value>h1,h2</value>
</property>
<property>
<name>dfs.namenode.rpc-address.ns1.h1</name>
<value>h1:9000</value>
</property>
<property>
<name>dfs.namenode.http-address.ns1.h1</name>
<value>h1:50070</value>
</property>
<property>
<name>dfs.namenode.rpc-address.ns1.h2</name>
<value>h2:9000</value>
</property>
<property>
<name>dfs.namenode.http-address.ns1.h2</name>
<value>h2:50070</value>
</property>
<property>
<name>dfs.namenode.shared.edits.dir</name>
<value>qjournal://h1:8485;h2:8485;h3:8485/ns1</value>
</property>
<property>
<name>dfs.ha.automatic-failover.enabled.ns1</name>
<value>true</value>
</property>
<property>
<name>dfs.client.failover.proxy.provider.ns1</name>
<value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
</property>
<property>
<name>dfs.journalnode.edits.dir</name>
<value>/ROOT/server/data-hadoop/journaldata</value>
</property>
<property>
<name>dfs.ha.fencing.methods</name>
<value>sshfence</value>
</property>
<property>
<name>dfs.ha.fencing.ssh.private-key-files</name>
<value>/home/webmaster/.ssh/id_rsa</value>
</property>
<property>
<name>dfs.webhdfs.enabled</name>
<value>true</value>
</property>
<property>
<name>dfs.blocksize</name>
<value>134217728</value>
</property>
<property>
<name>dfs.namenode.handler.count</name>
<value>20</value>
</property>
<property>
<name>dfs.datanode.max.xcievers</name>
<value>2048</value>
</property>
</configuration>

yarn-site.xml里面：

Xml代码

<?xml version="1.0"?>
<!--
Licensed under the Apache License, Version 2.0 (the "License");
you may not use this file except in compliance with the License.
You may obtain a copy of the License at
http://www.apache.org/licenses/LICENSE-2.0
Unless required by applicable law or agreed to in writing, software
distributed under the License is distributed on an "AS IS" BASIS,
WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
See the License for the specific language governing permissions and
limitations under the License. See accompanying LICENSE file.
-->
<configuration>
<property>
<name>yarn.resourcemanager.ha.enabled</name>
<value>true</value>
</property>
<property>
<name>yarn.resourcemanager.cluster-id</name>
<value>ns1</value>
</property>
<property>
<name>yarn.resourcemanager.ha.rm-ids</name>
<value>h1,h2</value>
</property>
<property>
<name>yarn.resourcemanager.ha.automatic-failover.recover.enabled</name>
<value>true</value>
</property>
<property>
<name>yarn.resourcemanager.recovery.enabled</name>
<value>true</value>
</property>
<property>
<name>yarn.resourcemanager.hostname.h1</name>
<value>h1</value>
</property>
<property>
<name>yarn.resourcemanager.hostname.h2</name>
<value>h2</value>
</property>
<property>
<name>yarn.resourcemanager.store.class</name>
<value>org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore</value>
</property>
<property>
<name>yarn.resourcemanager.zk-address</name>
<value>h1:2181,h2:2181,h3:2181</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address.h1</name>
<value>h1:8030</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address.h2</name>
<value>h2:8030</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address.h1</name>
<value>h1:8031</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address.h2</name>
<value>h2:8031</value>
</property>
<property>
<name>yarn.resourcemanager.address.h1</name>
<value>h1:8032</value>
</property>
<property>
<name>yarn.resourcemanager.address.h2</name>
<value>h2:8032</value>
</property>
<property>
<name>yarn.resourcemanager.admin.address.h1</name>
<value>h1:8033</value>
</property>
<property>
<name>yarn.resourcemanager.admin.address.h2</name>
<value>h2:8033</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address.h1</name>
<value>h1:8088</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address.h2</name>
<value>h2:8088</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.class</name>
<value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.CapacityScheduler</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
<property>
<description>Classpath for typical applications.</description>
<name>yarn.application.classpath</name>
<value>$HADOOP_CONF_DIR
,$HADOOP_COMMON_HOME/share/hadoop/common/*
,$HADOOP_COMMON_HOME/share/hadoop/common/lib/*
,$HADOOP_HDFS_HOME/share/hadoop/hdfs/*
,$HADOOP_MAPRED_HOME/share/hadoop/mapreduce/*
,$YARN_HOME/share/hadoop/yarn/*</value>
</property>
<property>
<name>yarn.nodemanager.resource.memory-mb</name>
<value>5632</value>
</property>
<property>
<name>yarn.scheduler.minimum-allocation-mb</name>
<value>1408</value>
</property>
<property>
<name>yarn.scheduler.maximum-allocation-mb</name>
<value>5632</value>
</property>
</configuration>

mapred-site.xml里面内容

Xml代码

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!--
Licensed under the Apache License, Version 2.0 (the "License");
you may not use this file except in compliance with the License.
You may obtain a copy of the License at
http://www.apache.org/licenses/LICENSE-2.0
Unless required by applicable law or agreed to in writing, software
distributed under the License is distributed on an "AS IS" BASIS,
WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
See the License for the specific language governing permissions and
limitations under the License. See accompanying LICENSE file.
-->
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>mapreduce.jobtracker.address</name>
<value>h1:8021</value>
</property>
<property>
<name>mapreduce.jobhistory.address</name>
<value>h1:10020</value>
</property>
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>h1:19888</value>
</property>
<property>
<name>mapred.max.maps.per.node</name>
<value>2</value>
</property>
<property>
<name>mapred.max.reduces.per.node</name>
<value>1</value>
</property>
<property>
<name>mapreduce.map.memory.mb</name>
<value>1408</value>
</property>
<property>
<name>mapreduce.map.java.opts</name>
<value>-Xmx1126M</value>
</property>
<property>
<name>mapreduce.reduce.memory.mb</name>
<value>2816</value>
</property>
<property>
<name>mapreduce.reduce.java.opts</name>
<value>-Xmx2252M</value>
</property>
<property>
<name>mapreduce.task.io.sort.mb</name>
<value>512</value>
</property>
<property>
<name>mapreduce.task.io.sort.factor</name>
<value>100</value>
</property>
</configuration>

启动方式：假设你是新的集群，如果不是，请参考文末的官网url链接

1，先在集群中启动N/2+1个JornalNode进程，写ssh脚本执行命令：hadoop-daemon.sh start journalnode
2 ，然后在第一台NameNode上应执行hdfs namenode -format格式化集群
3，然后在第二台NameNode上执行hdfs namenode -bootstrapStandby同步第一台NameNode元数据
4，在第一台NameNode上执行命令hdfs zkfc -formatZK格式化zookeeper
5，第一台NameNode上启动zkfc执行命令：hadoop-daemon.sh start zkfc
6，在第二台NameNode上启动zkfc执行命令：hadoop-daemon.sh start zkfc
7，执行start-dfs.sh启动所有的NameNode，DataNode，JournalNode（注意如果已经启动就会跳过）
8，执分别访问两台机器的50070端口，查看NameNode状态，其中一个为Active，一个为Standby即为正常
9，测试容错，找到状态为Active的NameNode的pid进程，并kill掉，查看standby是否会自动晋级为active，如果
一切安装完毕，则会自动切换，如果没切换，注意查看zkfc和namenode的log

感谢并参考的文章：
http://hadoop.apache.org/docs/r2.7.1/hadoop-project-dist/hadoop-hdfs/HDFSHighAvailabilityWithQJM.html
http://lizhenliang.blog.51cto.com/7876557/1661354
http://www.cnblogs.com/781811964-Fighter/p/4930067.html

时间： 2024-09-30 17:33:13

Hadoop2.7.1配置NameNode+ResourceManager高可用原理分析的相关文章

Resourcemanager高可用配置

ResourceManager高可用配置 1. yarn-site.xml配置 <property> <name>yarn.resourcemanager.cluster-id</name> <value>yarn-ha</value> </property> <property> <name>yarn.resourcemanager.ha.enabled</name> <value>t

hadoop+zookepper实现namenode的高可用

Hadoop+zookeepker安装与配置: 在hadoop-env.sh中添加export JAVA的环境变量修改hostname文件的名称,/etc/hosts文件配置主机名和ip的映射关系,将mstaer,slave的主机名和ip地址都添加进来配置ssh免密钥配置 Ssh-keygen –t rsa 在./.ssh文件中生成两个文件id_rsa(私钥),id_rsa.pub(公钥) cat id_rsa.pub > .ssh/authorized_keys scp authorize

DRBD+HeartBeat+NFS：配置NFS的高可用

说明: 上周研究了DRBD的安装和配置,今天研究下DRBD的第一个应用,利用DRBD+HeartBeat+NFS:配置NFS的高可用,作为集群中的底端共享存储 NFS主要存储WEB服务器上的程序代码和一些图片文件参考: http://network.51cto.com/art/201010/230237_all.htm http://showerlee.blog.51cto.com/2047005/1212185 环境: [[email protected] ~]# cat /etc/issu

Keepalived+MariaDB10配置双主高可用数据库

Keepalived+MariaDB10配置双主高可用数据库 OS RS 子网掩码路由网关 Centos6.6 MariaDB10 Keepalived Eth0:192.168.26.210 255.255.252.0 192.168.25.3 VIP:192.168.27.210 255.255.255.252 Centos6.6 MariaDB10 Keepalived Eth0:192.168.26.211 255.255.252.0 192.168.25.3 VIP:192.168.

实例：LVS+Keepalived配置LVS的高可用

LVS+Keepalived配置LVS的高可用我们这里LVS-DR模型的高可用集群: 实验环境: vm1 LVS-DR1: eth0 172.16.3.2/16 VIP :eth0:0 172.16.3.88 vm2 LVS-DR2: eth0 172.16.3.3/16 vm3 Server-web1 RS1: eth0 172.16.3.1/16

DRBD+Heartbeat+Mysql：配置mysql的高可用

说明: 今天接着研究DRBD的第二个应用,利用DRBD+Heartbeat+Mysql:配置mysql的高可用环境: [[email protected] ~]# cat /etc/issue CentOS release 6.4 (Final) Kernel \r on an \m [[email protected] ~]# uname -r 2.6.32-358.el6.i686 dbm137 192.168.186.137 dbm137.51.com primary DRBD+Hear

hyper-v高可用性之3、配置虚拟机的高可用

配置虚拟机高可用可以让虚拟机系统7*24小时服务,当虚拟机所在的宿主机出现问题后,故障转移功能会将虚拟机自动迁移到群集中的其他节点,这个过程虚拟机服务持续不断,最大也就丢两个ping包,以下是配置虚拟机的高可用操作 1.打开群集管理器,连接到创建的群集,右键点击群集名称选择"配置角色" 2.弹出的向导概述了此向导可用实现的功能,点击下一步 3.在选择角色的页面中,我们把下拉框拉到最下面选择"虚拟机" 4.此时向导会自动检查到目前在所有群集节点上的虚拟机,选择需要配置

配置nginx+keepalived高可用负载均衡的时候。主从服务器都出现了VIP 阿里云问题

配置nginx+keepalived高可用负载均衡的时候.主从服务器都出现了VIP 出现这问题的场景是在阿里VPS云服务器网络环境中,因为路由交换层禁用了ARP的广播限制,造成KEEPALIVE主备协议无法通过广播的方式进行通信,造成主备两台服务器都强占HAVIP地址,出现同时两台服务器都有VIP地址的情况出现,必须通过配置来指定IP的两台服务器间进行通讯(阿里说明文档中解释只能支持两台使用同一个HAVIP地址),基于以下方法可以的情况下,多备方式用同样的方式也应该可行 ,有需要的兄弟可以测试下

网易视频云技术分享：HBase高可用原理与实践

网易视频云是网易倾力打造的一款基于云计算的分布式多媒体处理集群和专业音视频技术,提供稳定流畅.低时延.高并发的视频直播.录制.存储.转码及点播等音视频的PAAS服务,在线教育.远程医疗.娱乐秀场.在线金融等各行业及企业用户只需经过简单的开发即可打造在线音视频平台.现在,网易视频云的技术专家给大家分享一则技术文:HBase高可用原理与实践. 前言前段时间有套线上HBase出了点小问题,导致该套HBase集群服务停止了2个小时,从而造成使用该套HBase作为数据存储的应用也出现了服务异常.在排查问

猜你喜欢

多线程篇六：线程池

1.固定大小的线程池 ExecutorService threadPools1=Executors.newFixedThreadPool(3); for(int i=1;i<=10;i++){ ...

微信小程序快键键

快捷键格式调整 - Ctrl+S:保存文件 - Ctrl+[, Ctrl+]:代码行缩进 - Ctrl+Shift+[, Ctrl+Shift+]:折叠打开代码块 - Ctrl+C Ctrl+V:复 ...

jQuery的延迟对象

之前看别人的demo,发现在延迟对象被resolve时要执行的代码,有时会写在deferred.then方法里执行,有时会写在deferred.done方法里执行. 这让对延迟对象一知半解的我非常困惑 ...

最小生成树练习2（Kruskal）

两个BUG鸣翠柳,一行代码上西天... hdu4786 Fibonacci Tree(生成树)问能否用白边和黑边构成一棵生成树,并且白边数量是斐波那契数. 题解:分别优先加入白边和黑边,求出生成树能包 ...

批量下载慕课网视频

慕课网(http://www.imooc.com/)上有很多不错的视频,当然我不是来给慕课网打广告的,我本人学习过很多慕课网上的免费的视频. 在线看如果网速慢时,可能会有卡顿,没网时无法观看.所有说下 ...

生成器、三元运算符、面向过程

生成器: 函数内部有 yield 关键字,该函数执行的结果就是生成器函数,yield后跟返回值,不跟是None 生成器本质就是迭代器 def foo(): print('start') yield ...

JAVA重载和数组

Java 重载:相同的方法名,但参数个数或者类型不一样的情况下,自动执行不同的方法数组: int[] array=new int[5]; System.out.println(array); ...

Java学习笔记之_JDBC

JDBC简介 1.SUN公司为了简化,统一数据库的操作,定义了一套Java操作数据库的规范,称之为JDBC 2.数据库驱动 3.JDBC全称为:JAVA DataBase Commectivity(j ...

linux下lighttpdserver的具体安装步骤以及对flv流媒体的支持配置

准备条件: a,创建/usr/local/lighttpd文件夹,用于安装lighttpd b,创建lighttpd用户password为lighttpd账号,用于lighttpd的启动用户 c,安装 ...

2.CJS语法详解

JS的语法同C几乎没有什么什么区别. 运算符:各种运算符同C语言的语法一样就不写了. 讲解一下字符串的操作吧: var a="zmc"; var b="is good m ...

.NET网站本机调试通过、发布后EXCEL导入数据库报错问题的解决

近期做了一个EXCEL导入数据库的页面,在VS2012本机调试中导入XLS\XLSX均顺利通过,但在WEB环境下导入时均出错! 在网上查了相关资料,最有可能的原因是 DCOM 中EXCEL应用程序权限 ...

Android5.0开发范例大全读书笔记（五）

(四)实现设备硬件交互与媒体交互 4.6自定义摄像头覆盖层 1.将Camera中的内容实时的绘制到SurfaceView中若要自定义拍摄界面,只要重新定义surface的界面即可以下展示全部代码 ...

高次多项式因式分解

一. 1.商式在多项式除法P(x)/Q(x)运算中,如果P(x)可以表示成Q(x)*S(x)+R(x)的形式(其中S(x).R(x)为整式),那么S(x)叫该除法式中的商式. 例1:求(x^3-2) ...

cocos2d-html5基金会

1 环境结构版本号Cocos2d-html5-v2.2,tomcat7.0 构造tomcat.然后直接解压Cocos2d-html5-v2.2.zip.解压后根文件访问的文件夹index.html你 ...

机器学习之模型评估与选择

2.1 经验误差与过拟合基本概念: 错误率:分类错误数/总样本数训练误差/经验误差:学习器在训练集上所产生的误差泛化误差:学习器在测试集上产生的误差 2.2 评估方法在实际应用中会有多种不同的 ...

myeclipse 8.5打开文件Could not open the editor: Invalid thread access 异常

最近打开了一个好久没用的myeclipse 8.5下的工作区间,导入一个项目,想打开文件编辑提示Could not open the editor: Invalid thread access 解决办 ...

eclipse(myEclipse) 配置maven项目

工作中在myeclipse中导入maven工程后,在pom.xml文件目录执行了mvn eclipse:eclipse 后,发现项目中缺少"Maven Dependencies"目 ...

PairProject——结对编程

成员:12061162 王骜 12061225 钟毅恒一.合作过程中的照片 . 二.结对编程的优缺点优点: 1)在编程过程中,任何一段代码都不断地复审,同时避免了将写代码的责任抛给一个人的问题 ...

奇葩！A06B-6093-H112 FANUC芯片维修记录

一同行拿来一台发那科β系列伺服驱动器,型号为A06B-6093-H112 这次算是第一次合作.这台驱动器他找别人修了3次还没搞定,说是底板有问题,检查发现到处都有焊动的痕迹,还有几根飞线,估计是焊功 ...

平台性能收集手段与研究思路

下面内容是参加的一门网络课程的一个章节脉络.自己再脉络基础上进行了扩展. 看图说话 1.平台综述描述一个平台(linux,windows),这里说的平台,其实就是主机.衡量一个主机的好坏,主要从5方 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.027 s.