MapReduce流程、如何统计任务数目以及Partitioner

核心功能描述

  应用程序通常会通过提供map和reduce来实现 Mapper和Reducer接口,它们组成作业的核心。

  Map是一类将输入记录集转换为中间格式记录集的独立任务。 这种转换的中间格式记录集不需要与输入记录集的类型一致。一个给定的输入键值对可以映射成0个或多个输出键值对。Hadoop Map/Reduce框架为每一个InputSplit产生一个map任务,而每个InputSplit是由该作业的InputFormat产生的。

  什么是InputSplit?InputSplit是指分片,在MapReduce当中作业中,作为map task最小输入单位。分片是基于文件基础上出来的而来的概念,通俗的理解一个文件可以切分为多少个片段,每个片段包括了<文件名,开始位置,长度,位于哪些主机>等信息。在MapTask拿到这些分片后,会知道从哪开始读取数据。(http://blog.csdn.net/chlaws/article/details/22900141)

  Mapper的输出被排序后,就被划分给每个Reducer。分块的总数目和一个作业的reduce任务的数目是一样的。用户可以通过实现自定义的 Partitioner来控制哪个key被分配给哪个Reducer。

  用户可选择通过JobConf.setCombinerClass(Class)指定一个combiner,它负责对中间过程的输出进行本地的聚集,这会有助于降低从Mapper到 Reducer数据传输量。这些被排好序的中间过程的输出结果保存的格式是(key-len, key, value-len, value),应用程序可以通过JobConf控制对这些中间结果是否进行压缩以及怎么压缩,使用哪种CompressionCodec

需要多少个Map?

  Map的数目通常是由输入数据的大小决定的,一般就是所有输入文件的总块(block)数。

  Map正常的并行规模大致是每个节点(node)大约10到100个map,对于CPU 消耗较小的map任务可以设到300个左右。由于每个任务初始化需要一定的时间,因此,比较合理的情况是map执行的时间至少超过1分钟。

  这样,如果你输入10TB的数据,每个块(block)的大小是128MB,你将需要大约82,000个map来完成任务,除非使用 setNumMapTasks(int)将这个数值设置得更高。

Reducer

  Reducer将与一个key关联的一组中间数值集归约(reduce)为一个更小的数值集。用户可以通过JobConf.setNumReduceTasks(int)设定一个作业中reduce任务的数目。

  Reducer有3个主要阶段:shuffle、sort和reduce。

Shuffle

  Reducer的输入就是Mapper已经排好序的输出。在这个阶段,框架通过HTTP为每个Reducer获得所有Mapper输出中与之相关的分块。

Sort

  这个阶段,框架将按照key的值对Reducer的输入进行分组 (因为不同mapper的输出中可能会有相同的key)。Shuffle和Sort两个阶段是同时进行的;map的输出也是一边被取回一边被合并的。

Secondary Sort

  如果需要中间过程对key的分组规则和reduce前对key的分组规则不同,那么可以通过JobConf.setOutputValueGroupingComparator(Class)来指定一个Comparator。再加上JobConf.setOutputKeyComparatorClass(Class)可用于控制中间过程的key如何被分组,所以结合两者可以实现按值的二次排序

Reduce

  在这个阶段,框架为已分组的输入数据中的每个 <key, (list of values)>对调用一次 reduce(WritableComparable, Iterator, OutputCollector, Reporter)方法。

  Reduce任务的输出通常是通过调用 OutputCollector.collect(WritableComparable, Writable)写入 文件系统的。应用程序可以使用Reporter报告进度,设定应用程序级别的状态消息,更新Counters(计数器),或者仅是表明自己运行正常。Reducer的输出是没有排序的

需要多少个Reduce?

  Reduce的数目建议是0.95或1.75乘以 (<no. of nodes> * mapred.tasktracker.reduce.tasks.maximum)。用0.95,所有reduce可以在maps一完成时就立刻启动,开始传输map的输出结果。用1.75,速度快的节点可以在完成第一轮reduce任务后,可以开始第二轮,这样可以得到比较好的负载均衡的效果。增加reduce的数目会增加整个框架的开销,但可以改善负载均衡,降低由于执行失败带来的负面影响。

  上述比例因子比整体数目稍小一些是为了给框架中的推测性任务(speculative-tasks) 或失败的任务预留一些reduce的资源。

无Reducer

如果没有归约要进行,那么设置reduce任务的数目为是合法的。

这种情况下,map任务的输出会直接被写入由 setOutputPath(Path)指定的输出路径。框架在把它们写入FileSystem之前没有对它们进行排序。

Partitioner

  Partitioner用于划分键值空间(key space)。

  Partitioner负责控制map输出结果key的分割。Key(或者一个key子集)被用于产生分区,通常使用的是Hash函数。分区的数目与一个作业的reduce任务的数目是一样的。因此,它控制将中间过程的key(也就是这条记录)应该发送给m个reduce任务中的哪一个来进行reduce操作。HashPartitioner是默认的 Partitioner。

MapReduce流程、如何统计任务数目以及Partitioner

时间: 2024-08-01 06:29:51

MapReduce流程、如何统计任务数目以及Partitioner的相关文章

统计文件数目(不包括隐藏文件/文件夹)

统计文件数目(不包括隐藏文件/文件夹) ls -l | grep "^-" | wc -l 统计当前目录下文件的数目 ls -lR | grep "^-" | wc -l 统计当前目录下文件的数目,包括子目录里的 ls -l | grep "^d" | wc -l 统计当前目录下文件夹(也就是目录)的数目 ls -lR | grep "^d" | wc -l 统计当前目录下文件夹(也就是目录)的数目,包括子目录里的 注意是英文

Hadoop之MapReduce流程

hadoopMapReduce 1. MapReduce流程 2. Shuffle流程 1. MapReduce流程 MapReduce流程 切片: 对数据进行逻辑划分,默认大小是一个block块大小. 以文件为单位,所以注意小文件问题 计算规则:Math.max(minSize, Math.min(maxSize, blockSize)) 最大当中取最下,最小当中取最大,说白就是取中间值 MapTask: 根据切片多少确定开启几个task任务 Spill溢写: 当Collect阶段在环形缓冲区

MapReduce实例:编写MapReduce程序,统计每个买家收藏商品数量

现有某电商网站用户对商品的收藏数据,记录了用户收藏的商品id以及收藏日期,名为buyer_favorite1. buyer_favorite1包含:买家id,商品id,收藏日期这三个字段,数据以“\t”分割,样本数据及格式如下: 买家id   商品id    收藏日期 10181   1000481   2010-04-04 16:54:31 20001   1001597   2010-04-07 15:07:52 20001   1001560   2010-04-07 15:08:27 2

MapReduce最佳成绩统计,男生女生比比看

上一篇文章我们了解了MapReduce优化方面的知识,现在我们通过简单的项目,学会如何优化MapReduce性能 1.项目介绍 我们使用简单的成绩数据集,统计出0~20.20~50.50~100这三个年龄段的男.女学生的最高分数 2.数据集 姓名     年龄  性别   成绩 Alice     23   female  45 Bob      34   male   89 Chris    67   male   97 Kristine   38   female  53 Connor  

MapReduce 编程 系列九 Reducer数目

本篇介绍怎样控制reduce的数目.前面观察结果文件,都会发现通常是以part-r-00000 形式出现多个文件,事实上这个reducer的数目有关系.reducer数目多,结果文件数目就多. 在初始化job的时候.是能够设置reducer的数目的.example4在example的基础上做了改动.改动了pom.xml.使得结束一个參数作为reducer的数目.改动了LogJob.java的代码,作为设置reducer数目. xsi:schemaLocation="http://maven.ap

统计碱基数目、GC含量、read数、最长的read、最短的read及平均read长度

# 用于fasta格式文件的碱基数目和GC含量的统计 grep -v '>' input.fa| perl -ne  '{$count_A=$count_A+($_=~tr/A//);$count_T=$count_T+($_=~tr/T//);$count_G=$count_G+($_=~tr/G//);$count_C=$count_C+($_=~tr/C//);$count_N=$count_N+($_=~tr/N//)};END{print qq{total count is },$co

MapReduce 编程 系列八 Reducer数目

本篇介绍如何控制reduce的数目.前面观察结果文件,都会发现一般是以part-r-00000 形式出现多个文件,其实这个reducer的数目有关系,reducer数目多,结果文件数目就多. 在初始化job的时候,是可以设置reducer的数目的.example4在example的基础上做了改动.修改了pom.xml,使得结束一个参数作为reducer的数目.修改了LogJob.java的代码,作为设置reducer数目. xsi:schemaLocation="http://maven.apa

在hadoop上进行编写mapreduce程序,统计关键词在text出现次数

mapreduce的处理过程分为2个阶段,map阶段,和reduce阶段.在要求统计指定文件中的所有单词的出现次数时, map阶段把每个关键词写到一行上以逗号进行分隔,并初始化数量为1(相同的单词hadoop中的map会自动放到一行中) reduce阶段是把每个单词出现的频率统计出来重新写回去. 如代码: package com.clq.hadoop2; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.Lo

多校2016 1004 HDU5784 统计锐角三角形数目

http://acm.hdu.edu.cn/showproblem.php?pid=5784 题意:n个点,找多少个锐角三角形数目 思路:极角排序+two pointers 当前选择的点集要倍增一倍,点集过大时,极角排序后,后面的点有可能和前面的点形成钝角 ans=总的三角形数目 - 三点共线的情况-直角和钝角 1 // #pragma comment(linker, "/STACK:102c000000,102c000000") 2 #include <iostream>