Map/Reduce 工作机制分析 --- 错误处理机制

前言

　　对于Hadoop集群来说，节点损坏是非常常见的现象。

　　而Hadoop一个很大的特点就是某个节点的损坏，不会影响到整个分布式任务的运行。

　　下面就来分析Hadoop平台是如何做到的。

硬件故障

　　硬件故障可以分为两种 - JobTracker节点损坏和TaskTracker节点损坏。

　　1. JobTracker节点损坏

　　　　这是Hadoop集群中最为严重的错误。

　　　　出现了这种错误，那就只能重新选择JobTracker节点，而在选择期，所有的任务都必须停掉，而且当前已经完成了的任务也必须通通重来。

　　2. TaskTracker节点损坏

　　　　这是Hadoop集群中最常见的错误。对于这类错误，Hadoop有完好的错误处理机制。

　　　　JobTracker和TaskTracker的心跳通信机制要求TaskTracker保证在1分钟之内向JobTracker汇报进展。

　　　　如果超过时间JobTracker没有收到汇报，就会将该TaskTracker从等待调度的集合中移除出去；

　　　　而如果收到任务失败的的报告，就把这个TaskTracker移动到等待调度队列尾部重新排队。但是若一个TaskTracker连续汇报了四次失败，那么也会被移出任务等待队列。

小结

　　关于故障的处理维护，一般会由专人来进行管理。

　　这部分内容就暂且不做深究了。

　　另外，为什么当一个Map节点的多个Map任务中有一个失败，其他所有Map任务都要重新执行？

　　而Reduce节点只用重新执行失败的那一个任务？

　　这个问题已在CSDN上请教网友，相信很快就有回答。

时间： 2024-08-02 11:04:50

Map/Reduce 工作机制分析 --- 错误处理机制的相关文章

第十一篇：Map/Reduce 工作机制分析 - 错误处理机制

前言对于Hadoop集群来说,节点损坏是非常常见的现象. 而Hadoop一个很大的特点就是某个节点的损坏,不会影响到整个分布式任务的运行. 下面就来分析Hadoop平台是如何做到的. 硬件故障硬件故障可以分为两种 - JobTracker节点损坏和TaskTracker节点损坏. 1. JobTracker节点损坏这是Hadoop集群中最为严重的错误. 出现了这种错误,那就只能重新选择JobTracker节点,而在选择期,所有的任务都必须停掉,而且当前已经完成了的任务也必须通通重来. 2.

Map/Reduce 工作机制分析 --- 作业的执行流程

前言从运行我们的 Map/Reduce 程序,到结果的提交,Hadoop 平台其实做了很多事情. 那么 Hadoop 平台到底做了什么事情,让 Map/Reduce 程序可以如此 "轻易" 地实现分布式运行? Map/Reduce 任务执行总流程经过之前的学习,我们已经知道一个 Map/Reduce 作业的总流程为: 代码编写 --> 作业配置 --> 作业提交 --> Map任务的分配和执行 --> 处理中间结果(Shuffle) --&

第九篇：Map/Reduce 工作机制分析 - 作业的执行流程

Map/Reduce 工作机制分析 --- 数据的流向分析

前言在MapReduce程序中,待处理的数据最开始是放在HDFS上的,这点无异议. 接下来,数据被会被送往一个个Map节点中去,这也无异议. 下面问题来了:数据在被Map节点处理完后,再何去何从呢? 这就是本文探讨的话题. Shuffle 在Map进行完计算后,将会让数据经过一个名为Shuffle的过程交给Reduce节点: 然后Reduce节点在收到了数据并完成了自己的计算后,会将结果输出到Hdfs. 那么,什么是Shuffle阶段,它具体做什么事情? 需要知道,这可是Hadoop最为核心的

第九篇：Map/Reduce 工作机制分析 - 数据的流向分析

Map/Reduce工作原理

上图是论文里给出的流程图.一切都是从最上方的user program开始的,user program链接了MapReduce库,实现了最基本的Map函数和Reduce函数.图中执行的顺序都用数字标记了. 1.MapReduce库先把user program的输入文件划分为M份(M为用户定义),每一份通常有16MB到64MB,如图左方所示分成了split0~4:然后使用fork将用户进程拷贝到集群内其它机器上. 2.user program的副本中有一个称为master,其余称为worker,ma

Map Reduce和流处理

欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 本文由@从流域到海域翻译,发表于腾讯云+社区 map()和reduce()是在集群式设备上用来做大规模数据处理的方法,用户定义一个特定的映射,函数将使用该映射对一系列键值对进行处理,直接产生出一系列键值对. Map Reduce和流处理 Hadoop的Map / Reduce模型在并行处理大量数据方面非常出色.它提供了一个通用的分区机制(基于数据的关键)来分配不同机器上的聚合式工作负载.基本上, map / reduce的算法设计都是关

map的内存分配机制分析

该程序演示了map在形成的时候对内存的操作和分配. 因为自己对平衡二叉树的创建细节理解不够,还不太明白程序所显示的日志.等我明白了,再来修改这个文档. /* 功能说明: map的内存分配机制分析. 代码说明: map所管理的内存地址可以是不连续的.如果key是可以通过<排序的,那么,map最后的结果是有序的.它是通过一个平衡二叉树来保存数据.所以,其查找效率极高. 实现方式: 限制条件或者存在的问题: 无 */ #include <iostream> #include <strin

Android7.0 Vold 进程工作机制分析之整体流程

Android7.0 Vold 进程工作机制分析之整体流程一.Vold简介 Vold是Volume Daemon的缩写,负责管理和控制Android平台外部存储设备,包括SD插拨.挂载.卸载.格式化等.它是通过init进程解析init.rc脚本所启动的进程.它处于Native层. 二.基础架构这里引用Gityuan博客的一张图. SystermServer进程和Vold进程是通过Socket进行通信的,Vold进程和Kernel是通过Netlink 进行通信的,Netlink 是一种特殊的S