hadoop1——map到reduce中间的shuffle过程

---恢复内容开始---

shuffle和排序

过程图如下:

MapReduce确保每个reduce的输入都按键排序,系统执行排序的过程——将map输出作为输入传给reduce——成为shuffle,理解shuffle的工作原理,有助于MapReduce程序的优化,因为shuffle属于不断被优化和改进的代码库的一部分,shuffle是MapReduce的心脏,是奇迹发生的地方

map端

  map函数开始产生输出时,并不是简单的将它写到磁盘,这个过程非常复杂,它是利用缓冲的方式写到内存,并处于效率的考虑进行预排序。

  每个map任务都有一个环形内存缓冲区,用于存储任务的输出,默认情况下,缓冲区的大小为100MB,此值可以通过改变io.sort.mb属性来调整,一旦缓冲区内容达到阀值(io.sort.spill.percent,默认为80%),一个后台线程便开始把内容溢写到磁盘中,在写磁盘过程中,map输出继续被写到缓冲区,但如果再次期间缓冲区被填满,map会阻塞直到写磁盘过程完成。

  写磁盘将按轮询方式写到mapred.local.dir属性指定的作业特定子目录中的目录中

  在写磁盘之前,线程首先根据数据最终要传送到的reducer把数据划分成相应的分区(partition)。在每个分区中,后台线程按键进行内排序,如果有一个combiner,它会在排序后的输出上运行。

  一旦内存缓冲区达到溢出写的阀值,就会新建一个溢出写文件,因此在map写完其最后一个输出记录之前,会有几个溢出写的文件 ,在任务完成之前,溢出写文件被合并成一个已分区且已排序的输出文件,配置属性io.sort.factor控制着一次最多能合并多少流,默认值是10.

  如果已指定combiner,并且溢出写次数至少为3(min.num.spill.for.combiner属性的取值)时,则combiner就会在输出文件写到磁盘之前运行,combiner可以再输入上反复运行,但并不影响最终结果,运行combiner的意义在与使map的输出更紧凑,使得写到本地磁盘和传给reducer的数据更少。

  写磁盘时压缩 map 输出往往是个很好的主意,因为这样会让写磁盘的速度更快,节约磁盘空间,并且减少传给 reducer 的数据量。默认情况下,输出是不压缩的,但只要将 mapred.compress map.output 设置为 true ,

  reducer通过http方式得到输出文件的分区,用于文件分区的工作线程的数量由任务的tracker.http.threads属性控制,此设置针对每个tasktracker,而不是针对每个map任务槽,默认值是40,在运行大型作业的大型集群上,此值可以根据需要而增加

reducer端

  现在转到处理过程的reduce部分,map输出文件位于map任务的tasttracker的本地磁盘上,现在tasktracker需要为分区文件运行reduce任务,更进一步,reduce任务需要集群上若干个map任务的输出作为其特殊的分区文件,每个map任务的完成时间可能不同,因此只要有一个任务完成,reduce任务就开始复制其输出,这就是reduce任务的复制阶段,reduce任务有少量复制线程,因此能够并行取得map输出,默认值是5个线程,这个默认值可以通过mapred.reduce.parallel.copies属性来改变。

  reducer如何知道要从哪个tasktracker取得map输出呢?

  map任务成功完成后,它们会通知其父tasktracker状态已更新,然后tasktracker通过心跳机制进而通知jobtracker。jobtracker知道map输出和tasktracker之间的映射关系,reducer中一个线程定期询问jobtracker以方便获取map的输出位置,直到它获得所有输出位置。由于reducer可能失败,因此,tasktracker并没有在第一个reducer检索到map输出时就立即从磁盘上删除它们,相反,tasktracker会等待,直到jobtrackr告知它可以删除map输出,这是作业完成后才执行的。

  如果map输出相当小,则会被复制到reduce tasktraker的内存(缓冲区大小由mapred.job.shuffle.merge.percent决定)或达到map输出阀值(由mapred.inmem.merge.threshld控制),则合并后溢写到磁盘中。

  随着磁盘上的副本的增多,后台线程会将它们合并为更大的,排序好的文件。这会为后面的合并节省一些时间,注意,为了合并,压缩的map输出(通过map任务)都必须在内存中被解压缩。

  复制完所有map输出被复制期间,reduce任务进去合并阶段,这个阶段将合并map输出,维持其顺序排序,这是循环进行的,比如有50个map输出,而合并因子(merge factor)是10(10位默认值,由io.sort.factor属性设置),合并将进行五次,每次将10个文件合并成一个文件,因此最后有5个中间文件。

  在最后阶段,即reduce阶段,直接把数据输入reduce函数,从而省略了一次磁盘往返形成,并没有将这5个文件合并成一个已排序的文件作为最后一趟,最后的合并既可能来自内存和也可能来自磁盘片段。

时间: 2024-12-21 09:44:08

hadoop1——map到reduce中间的shuffle过程的相关文章

Map、Reduce任务中Shuffle和排序的过程

Map.Reduce任务中Shuffle和排序的过程 流程分析: Map端: 1.每个输入分片会让一个map任务来处理,默认情况下,以HDFS的一个块的大小(默认为64M)为一个分片,当然我们也可以设置块的大小.map输出 的结果会暂且放在一个环形内存缓冲区中(该缓冲区的大小默认为100M,由io.sort.mb属性控制),当该缓冲区快要溢出时(默认为缓冲区大小的 80%,由io.sort.spill.percent属性控制),会在本地文件系统中创建一个溢出文件,将该缓冲区中的数据写入这个文件.

Spark 学习: spark 原理简述与 shuffle 过程介绍

Spark学习: 简述总结 Spark 是使用 scala 实现的基于内存计算的大数据开源集群计算环境.提供了 java,scala, python,R 等语言的调用接口. Spark学习 简述总结 引言 1 Hadoop 和 Spark 的关系 Spark 系统架构 1 spark 运行原理 RDD 初识 shuffle 和 stage 性能优化 1 缓存机制和 cache 的意义 2 shuffle 的优化 3 资源参数调优 4 小结 本地搭建 Spark 开发环境 1 Spark-Scal

【Big Data - Hadoop - MapReduce】通过腾讯shuffle部署对shuffle过程进行详解

摘要: 通过腾讯shuffle部署对shuffle过程进行详解 摘要:腾讯分布式数据仓库基于开源软件Hadoop和Hive进行构建,TDW计算引擎包括两部分:MapReduce和Spark,两者内部都包含了一个重要的过程—Shuffle.本文对Shuffle过程进行解析,并对两个计算引擎的Shuffle过程进行比较. 腾讯分布式数据仓库(Tencent distributed Data Warehouse, 简称TDW)基于开源软件Hadoop和Hive进行构建,并且根据公司数据量大.计算复杂等

MapReduce的Shuffle过程介绍

MapReduce的Shuffle过程介绍 Shuffle的本义是洗牌.混洗,把一组有一定规则的数据尽量转换成一组无规则的数据,越随机越好.MapReduce中的Shuffle更像是洗牌的逆过程,把一组无规则的数据尽量转换成一组具有一定规则的数据. 为什么MapReduce计算模型需要Shuffle过程?我们都知道MapReduce计算模型一般包括两个重要的阶段:Map是映射,负责数据的过滤分发:Reduce是规约,负责数据的计算归并.Reduce的数据来源于Map,Map的输出即是Reduce

MapReduce中shuffle过程

shuffle是MapReduce的核心,map和reduce的中间过程. Map负责过滤分发,reduce归并整理,从map输出到reduce输入就是shuffle过程. 实现的功能 分区 决定当前key交给哪个reduce处理 默认:按照key的hash值对reduce的个数取余进行分区 分组 将相同key的value合并 排序 按照key对每一个keyvalue进行排序,字典排序 过程 map端shuffle spill阶段:溢写 每一个map task处理的结果会进入环形缓冲区(内存10

MapReduce和spark的shuffle过程详解

面试常见问题,必备答案. 参考:https://blog.csdn.net/u010697988/article/details/70173104 mapReducehe和Spark之间的最大区别是前者较偏向于离线处理,而后者重视实效性,下面主要介绍mapReducehe和Spark两者的shuffle过程. MapReduce的Shuffle过程 MapReduce计算模型一般包括两个重要的阶段:Map是映射,负责数据的过滤分发:Reduce是规约,负责数据的计算归并.Reduce的数据来源于

hadoop的mapReduce和Spark的shuffle过程的详解与对比及优化

https://blog.csdn.net/u010697988/article/details/70173104 大数据的分布式计算框架目前使用的最多的就是hadoop的mapReduce和Spark,mapReducehe和Spark之间的最大区别是前者较偏向于离线处理,而后者重视实现性,下面主要介绍mapReducehe和Spark两者的shuffle过程. MapReduce的Shuffle过程介绍 Shuffle的本义是洗牌.混洗,把一组有一定规则的数据尽量转换成一组无规则的数据,越随

MapReduce中的shuffle过程

MapReduce的shuffle过程介绍 Shuffle的语义是洗牌.混洗,即把一组有一定规则的数据尽量转换成一组无规则的数据,随机性越高越好. MapReduce中的Shuffle更像是洗牌的逆过程,把一组无规则的数据尽量转换成一组具有一定规则的数据. 为什么MapReduce计算模型需要Shuffle过程? MapReduce计算模型一般包括两个重要的阶段: Map是映射,负责数据的过滤分发: Reduce是规约,负责数据的计算归并. Reduce的数据来源于Map,Map的输出即Redu

shuffle 过程map与reduce交换数据过程的关键

Shuffle描述着数据从map task输出到reduce task输入的这段过程. 个人理解: map执行的结果会保存为本地的一个文件中: 只要map执行 完成,内存中的map数据就一定会保存到本地文件,保存这个文件有个过程 叫做spilll(溢写),如果需要对map的执行结果做 combine  也是在这个时候(溢写执行的时候,写入磁盘之前)做的 reduce怎么接受数据: 在shuffle过程中,shuffle分为两部分,前半部分是map过程, 如四中写的问题,后半部分是reduce过程