Hadoop中shuffle阶段流程分析

Hadoop中shuffle阶段流程分析

MapReduce  longteng  9个月前 (12-23)  399浏览  0评论

宏观上,Hadoop每个作业要经历两个阶段:Map phase和reduce phase。对于Map phase,又主要包含四个子阶段:从磁盘上读数据-》执行map函数-》combine结果-》将结果写到本地磁盘上;对于reduce phase,同样包含四个子阶段:从各个map task上读相应的数据(shuffle)-》sort-》执行reduce函数-》将结果写到HDFS中。

(注:本文介绍的shuffle阶段非常粗略,如果想了解shuffle实现细节以及当前主流的优化方法,可阅读我的最新书籍《Hadoop技术内幕:深入解析MapReduce架构设计与实现原理》(购买说明)第8章 “Task运行过程分析”以及第8.5.2节 “系统优化”)

Hadoop处理流程中的两个子阶段严重降低了其性能。第一个是map阶段产生的中间结果要写到磁盘上,这样做的主要目的是提高系统的可靠性,但代价是降低了系统的性能,实际上,Hadoop的改进版–MapReduce Online去除了这个阶段,而采用其他更高效的方式提高系统可靠性(见参考资料[1]);另一个是shuffle阶段采用HTTP协议从各个map task上远程拷贝结果,这种设计思路(远程拷贝,协议采用http)同样降低了系统性能。实际上,Baidu公司正试图将该部分代码替换成C++代码来提高性能(见参考资料[2])。

本文首先着重分析shuffle阶段的具体流程,然后分析了其低效的原因,最后给出了可能的改进方法。

如图所示,每个reduce task都会有一个后台进程GetMapCompletionEvents,它获取heartbeat中(从JobTracker)传过来的已经完成的task列表,并将与该reduce task对应的数据位置信息保存到mapLocations中,mapLocations中的数据位置信息经过滤和去重(相同的位置信息因为某种原因,可能发过来多次)等处理后保存到集合scheduledCopies中,然后由几个拷贝线程(默认为5个)通过HTTP并行的拷贝数据,同时线程InMemFSMergeThread和LocalFSMerger会对拷贝过来的数据进行归并排序。

主要有两个方面影响shuffle阶段的性能:(1)数据完全是远程拷贝 (2)采用HTTP协议进行数据传输。对于第一个方面,如果采用某种策略(修改框架),让你reduce task也能有locality就好了;对于第二个方面,用新的更快的数据传输协议替换HTTP,也许能更快些, 如UDT协议(见参考资料[3]), 它在MapReduce的另一个C++开源实现Sector/Sphere(见参考资料[4])中被使用,效果不错!

学习转载,原文链接:http://blog.csdn.net/lihm0_1/article/details/17026251

时间: 2024-10-11 05:24:19

Hadoop中shuffle阶段流程分析的相关文章

Android中View绘制流程分析

创建Window 在Activity的attach方法中通过调用PolicyManager.makeNewWindo创建Window,将一个View add到WindowManager时,WindowManagerImpl创建一个ViewRoot来管理该窗口的根View.并通过ViewRoot.setView方法把该View传给ViewRoot. final void attach(Context context, ActivityThread aThread, Instrumentation

newlib 中的 crt0 流程分析

最近对 newlib 中的启动代码 crt0 产生了兴趣,于是就分析了下其代码.crt0 的源码位于 libgloss/arm/crt0.S,为了兼容各种 ARM 架构,crt0.S 中有大量的条件判断宏定义,对于只关心 ARMv7e-M 的我来说很是痛苦.刚好手上有个基于 STM32F412 的 mbed 工程用的是 crt0 的启动方式,参考 crt0.o 的反汇编我可以提炼出 crt0.S 中和 ARMv7e-M 相关的部分代码. crt0.o 的反汇编如下: 08008220 <_mai

MySQL中的SQL流程分析简述

分析MySQL中这条语句的整个流程 update table_a set c1=xx where c2=xxx 朋友考我的一个问题在此处列出个人见解 1 客户端连接进来首先进行权限验证 2 验证通过后 进入SQL接口,接收用户的SQL命令 3 SQL命令到解释器中进行验证和解析 4 解析后查询优化器会对查询进行优化生成最终查询结果 5 如果查询的结果在缓存中则直接从缓存中获取返回给客户端 6 如果没有则调用存储引擎的API接口从文件系统中获取返回给客户端,同时写入到缓存中 MySQL的体系结果参

Hadoop的Shuffle阶段

原文: https://www.toutiao.com/i6764683672772674062/ 在进入Map之前,首先会将数据从HDFS中读取,进行处理,按照字节偏移量这种之前说的形式处理为K,V对的形式,进入Map阶段. 其中InputFormat可以认为是一种类的继承关系,最终通过调用read方法,生成K,V对,输入到Map中,此时Map接收到的数据就是这个K,V对 然后数据被OutputCollector收集到(OutputCollector负责收集map输出的K,V对) 然后进入一个

MSM8909中LK阶段LCM屏适配与显示流程分析

1.前言 在驱动开发中,我们往往需要适配一些新的屏幕或者调试一些屏幕的参数等,对于Qualcomm的MSM8909这款SoC,当启动Android系统时,会有一个LK阶段,该阶段用来启动Linux内核系统,本文,将简单介绍如何在MSM8909的LK阶段中如何进行LCM屏的兼容和适配流程,并对LK阶段中,LCD屏幕的初始化和显示流程进行简要分析. 2.适配LCM屏幕 3.显示流程分析 4.小结 原文地址:https://www.cnblogs.com/Cqlismy/p/12019317.html

Hadoop中的Shuffle 与 Spark中的Shuffle得区别与联系

MapReduce过程.Spark和Hadoop以Shuffle为中心的对比分析 mapreduce与Spark的map-Shuffle-reduce过程 mapreduce过程解析(mapreduce采用的是sort-based shuffle) 将获取到的数据分片partition进行解析,获得k/v对,之后交由map()进行处理. map函数处理完成之后,进入collect阶段,对处理后的k/v对进行收集,存储在内存的环形缓冲区中. 当环形缓冲区中的数据达到阀值之后(也可能一直没有达到阀值

Hadoop中MapReduce多种join实现实例分析

一.概述 对于RDBMS中的join操作大伙一定非常熟悉,写sql的时候要十分注意细节,稍有差池就会耗时巨久造成很大的性能瓶颈,而在Hadoop中使用MapReduce框架进行join的操作时同样耗时,但是由于hadoop的分布式设计理念的特殊性,因此对于这种join操作同样也具备了一定的特殊性.本文主要对MapReduce框架对表之间的join操作的几种实现方式进行详细分析,并且根据我在实际开发过程中遇到的实际例子来进行进一步的说明. 二.实现原理 1.在Reudce端进行连接. 在Reudc

Hadoop RPC通信Server端的流程分析

前2天刚刚小小的分析下Client端的流程,走的还是比较通顺的,但是RPC的服务端就显然没有那么简单了,毕竟C-S这种模式的,压力和重点都是放在Server端的,所以我也只能做个大概的分析,因为里面细节的东西太多,我也不可能理清所有细节,但是我会集合源代码把主要的流程理理清.如果读者想进一步学习的话,可自行查阅源码. Server服务端和Client客户端在某些变量的定义上还是一致的,比如服务端也有Call,和Connection,这个很好理解,Call回调,和Connection连接是双向的.

Fescar(Seata)-Springcloud流程分析-2阶段

上文我们分析了fescar的一阶段执行过程.在一阶段中,服务起始方发起全局事务并注册到TC.在调用协同服务时,协同服务的事务分支事务会先完成阶段一的事务提交或回滚,并生成事务回滚的undo_log日志,同时上报其事务状态.出现任何异常都会通知TC,TC会通知各个一阶段已提交的事物通过undo_log发起回滚.如果没有异常即可提交事务. 现在我们了解下事务的提交和回滚. 事务提交 fescar通过netty进行服务之间的通信.上文我们说过,无论是提交还是回滚,本质都是发起一次请求到TC.TC在接收