7.2 hadoop失败:任务失败、application master 失败、节点管理器失败、资源管理器失败

1.1  失败

1.1.1         任务失败

Map和reduce任务失败:Map或者reduce任务有缺陷,抛出异常,JVM会会向applicationmaster 发出错误报告,applicationmaster将任务标记为failed,将错误报告写入用户日志,释放资源。

Stream任务失败:Streaming任务以非零状态码退出,则标记为失败,属性stream.non.zero.exit.is.failure属性设置为true,才会触发。

Jvm失败:Jvm软件缺陷突然退出,节点管理器会发现进程一退出,通知applicationmaster标记任务失败。

任务超时失败:applicationmaster在一段时间内没有收到进度更新,则将任务标记失败,超时时间通过mapreduce.task.timeout设置,为0表示无超时限制,这样会导致挂起的任务无法结束,释放资源。

任务重试:任务失败后,application master会尽量安排在其他节点管理器上再次运行该任务,失败次数超过mapreduce.map.maxattempts属性设置的值(默认4)时,整个作业就会失败。如果不希望单个任务失败, 就判定整个作业失败,可以设置失败比例,mapreduce.map.faileures.maxpercent和mapreduce.reduce.failures.maxpercent属性设置比例。

任务中止:任务是推测副本或者是节点崩溃,application master会将任务标记为中止(killed),不计入尝试失败次数(maxattempts)。

1.1.2         Application master运行失败

Mapreduce Application master尝试次数由mapreduce.am.max-attempts属性控制,默认值是2。YARN对集群上运行的YARN application master的最大尝试次数也加了限制,由属性yarn.resourcemanage.am.max-attempts设置,默认为2,想增加Mapreduce Application master的尝试次数,先增加YARN的设置。

application master重启资源管理器和application master之间有心跳,application失败时,资源管理器 检测不到心跳,就在一个新的容器中开启新的application master,使用作业历史来恢复任务状态,不必重新运行,yarn.app.mapreduce.am.job.revocery.enable来开启这个恢复功能。

客户端重定向application master地址:客户端向application master轮循进度报告,初始化时,客户端缓存application master地址,断联后,客户端会向资源管理器重新请求application master的地址。

1.1.3         节点管理器运行失败

节点管理器和资源管理器之间也有心跳,如果10分钟(属性yarn.resourcemanager.nm.liveness-monitor.expiry-interval-ms设置,单位秒)。资源管理器将有问题的节点管理器从节电池中移除。移除的节点管理器上的作业未完成的,在其他节点上恢复,重新运行。

节点管理器黑名单:由applicationmaster管理黑名单,对于mapreduce任务,在一个节点管理器上有三个任务失败,就会尽量将任务调度到不同的节点上。属性mapreduce.job.maxtaskfailures.per.tracker设置阈值。

1.1.4         资源管理器失败

资源管理器失败重启资源管理器失败非常严重,作业和任务容器无法启动,失败的作业不能恢复。采用双机热备配置,获得高可用性。运行中的应用程序的信息存储在高可用的状态存储区(zookeeper或HDFS),资源管理器重启后,从存储区读取应用程序的信息,恢复失败的资源管理器的关键状态,重启所有应用程序的application master,次数不计入yarn.resourcemanage.am.attempts。节点管理器信息没有存储,她的信息可以被资源管理器重构。

故障转移控制器:资源管理器发生故障,自动将资源管理器从主机切换到备机。

也可配置为手动,但是不建议这样。

客户端和节点管理器自动连接资源管理器:客户端和节点管理器以轮询方式连接资源管理器,一直尝试连接,直到备份资源管理器替换故障的资源管理器,成功连接。

自己开发了一个股票智能分析软件,功能很强大,需要的点击下面的链接获取:

https://www.cnblogs.com/bclshuai/p/11380657.html

原文地址:https://www.cnblogs.com/bclshuai/p/12204106.html

时间: 2024-10-24 16:23:26

7.2 hadoop失败:任务失败、application master 失败、节点管理器失败、资源管理器失败的相关文章

Hadoop 三剑客之 —— 集群资源管理器 YARN

一.hadoop yarn 简介 二.YARN架构 ????????1. ResourceManager ????????2. NodeManager ????????3. ApplicationMaster ????????4. Contain 三.YARN工作原理简述 四.YARN工作原理详述 五.提交作业到YARN上运行 一.hadoop yarn 简介 Apache YARN (Yet Another Resource Negotiator) 是hadoop 2.0 引入的集群资源管理系

Hadoop 系列(二)—— 集群资源管理器 YARN

一.hadoop yarn 简介 Apache YARN (Yet Another Resource Negotiator) 是 hadoop 2.0 引入的集群资源管理系统.用户可以将各种服务框架部署在 YARN 上,由 YARN 进行统一地管理和资源分配. <div align="center"> <img width="600px" src="https://raw.githubusercontent.com/heibaiying/

application master 持续org.apache.hadoop.ipc.Client: Retrying connect to server

一.问题现象 某一个nodemanager退出后,导致 application master中出现大量的如下日志,并且持续很长时间,application master才成功退出. 2016-06-24 09:32:35,596 INFO [ContainerLauncher #3] org.apache.hadoop.ipc.Client: Retrying connect to server: dchadoop206/192.168.1.199:32951. Already tried 1 

spark-shell启动报错:Yarn application has already ended! It might have been killed or unable to launch application master

spark-shell不支持yarn cluster,以yarn client方式启动 spark-shell --master=yarn --deploy-mode=client 启动日志,错误信息如下 其中"Neither spark.yarn.jars nor spark.yarn.archive is set, falling back to uploading libraries under SPARK_HOME",只是一个警告,官方的解释如下: 大概是说:如果 spark.

Microsoft.Office.Interop.Excel 放到B/S客户端失败问题 检索 COM 类工厂中 CLSID 为 {00024500-0000-0000-C000-000000000046} 的组件失败,原因是出现以下错误: 80070005 拒绝访问。

检索 COM 类工厂中 CLSID 为 {00024500-0000-0000-C000-000000000046} 的组件失败,原因是出现以下错误: 80070005 拒绝访问. (异常来自 HRESULT:0x80070005 (E_ACCESSDENIED)). 解决办法:(转) http://blog.csdn.net/wzhibin/article/details/1816690 用.net写了一个相关Excel的B/S的程序,部署到2003企业版的服务器上遇到这个错误:检索 COM

SQL Server 2008管理工具出现 远程过程调用失败0x800706be解决方法

SQL Server 2008管理工具出现 远程过程调用失败0x800706be解决方法 - MSSQL - 次元立方网 - 电脑知识与技术互动交流平台 http://www.it165.net/database/html/201305/3884.html     解决方法 出现此问题是因为在安装 Visual Studio 2012(VS2012) 时,会自动安装 "Microsoft SQL Server 2012 Express LocalDB" 这项服务,导致 SQL Serv

解决重装Mac系统时“安装器有效负载签名检查失败”的错误

昨天通过U盘重装MacOS 10.12系统时,在最后将要安装完成时,报错"安装器有效负载签名检查失败",进行第二次安装也是同样报错,如下: 查阅资料得知是当前系统时间和显示时间不同步所致,所以修改为当前正确的时间即可解决. 通过如下方式修改时间: 语法:date  MMDDHHmmYY.SS 如:date  110910032017.50 表示修改时间为2017年11月09日,10点03分50秒: 注:修改的时间和当前实际时间相差不应超过1分钟. 以上修改完毕后,退出终端,再进行重新安

[经验交流] Active-Active 方式设置 kubernetes master 多节点高可用

关于 kubernetes master 多节点以及高可用,网上的方法多采取 Active-Standby 方式,即: 通过 pacemaker 等软件使得某种 master 服务(apiserver,scheduler,controller-manager)同一时间只运行一个实例.具体来说,如果有多台master node,上面都安装了scheduler,controller-manager, apiserver: 对于schduler服务,同一时间只在一台master 节点上运行, 对于co

Cloudera Hadoop 4 实战课程(Hadoop 2.0、集群界面化管理、电商在线查询+日志离线分析)

课程大纲及内容简介: 每节课约35分钟,共不下40讲 第一章(11讲) ·分布式和传统单机模式 ·Hadoop背景和工作原理 ·Mapreduce工作原理剖析 ·第二代MR--YARN原理剖析 ·Cloudera Manager 4.1.2安装 ·Cloudera Hadoop 4.1.2 安装 ·CM下集群管理一 ·CM下集群管理二 ·Hadoop fs 命令详解 ·cloudera manager管理集群·cloudera manager下集群高级管理 第二章(约10讲) ·Hive数据表和