关于Mapreduce On Yarn中Map数量的设置

同事最近对MR on Yarn中Map数量的一个小的研究，描述如下：

在新版MapReduce 中即 MR on yarn中，不支持设置Map数量。

Map的数量是由MinInputSplitSize决定的，公式：

Map的数量 = TotalSize / MinInputSplitSize

要想控制Map的数量，可以通过控制MinInputSplitSize大小来控制Map数量。

如果设置的MinInputSplitSize大于BlockSize，MinInputSplitSize即为设置的值；反之设置的MinInputSplitSize小于BlockSize，MinInputSplitSize的值会置为BlockSize。

如果保持默认设置的话，MinInputSplitSize则为BlockSize，

时间： 2024-10-13 01:25:23

关于Mapreduce On Yarn中Map数量的设置的相关文章

MapReduce中Map数量的控制

InputFormat这个类是用来处理Map的输入数据的,任务开始时,InputFormat先将HDFS里所有输入文件里的数据分割成逻辑上的InputSpilt对象这里的split是HDFS中block的部分或者一整块或几个快中的数据的逻辑分割,一个split对应于一个Map,所以Map的数量是由split的数量决定的. 那么怎样去确定InputSpilt的个数呢,下面列出于split个数相关的配置参数: numSplits:来自job.getNumMapTasks(),即在job启动时用or

mapreduce 中 map数量与文件大小的关系

学习mapreduce过程中, map第一个阶段是从hdfs 中获取文件的并进行切片,我自己在好奇map的启动的数量和文件的大小有什么关系,进过学习得知map的数量和文件切片的数量有关系,那文件的大小和切片的数量的有什么关系 ,下面我就进入Hadoop的源代码进行研究一下文件的大小和切片的数量有什么关系. 文件获取和切片和一个InputFormat 这个抽象类有关系 ,这个抽象类只有两个抽象的方法分别是第一个方法是用来过去切片,第二方法使用获取文件.获取切片与第一个方法有关,我们进入研究

【Hadoop】三句话告诉你 mapreduce 中MAP进程的数量怎么控制？

1.果断先上结论 1.如果想增加map个数,则设置mapred.map.tasks 为一个较大的值. 2.如果想减小map个数,则设置mapred.min.split.size 为一个较大的值. 3.如果输入中有很多小文件,依然想减少map个数,则需要将小文件merger为大文件,然后使用准则2. 2.原理与分析过程看了很多博客,感觉没有一个说的很清楚,所以我来整理一下. 先看一下这个图输入分片(Input Split):在进行map计算之前,mapreduce会根据输入文件计算输入分片(i

在YARN中，如何控制和监控map/reduce的并发数

配置建议: 1. In MR1, the mapred.tasktracker.map.tasks.maximum and mapred.tasktracker.reduce.tasks.maximum properties dictated how many map and reduce slots each TaskTracker had. These properties no longer exist in YARN. Instead, YARN uses yarn.nodema

hadoop中map和reduce的数量设置问题

转载http://my.oschina.net/Chanthon/blog/150500 map和reduce是hadoop的核心功能,hadoop正是通过多个map和reduce的并行运行来实现任务的分布式并行计算,从这个观点来看,如果将map和reduce的数量设置为1,那么用户的任务就没有并行执行,但是map和reduce的数量也不能过多,数量过多虽然可以提高任务并行度,但是太多的map和reduce也会导致整个hadoop框架因为过度的系统资源开销而使任务失败.所以用户在提交map/re

分布式计算 MapReduce与yarn工作机制

一.第一代hadoop组成与结构第一代Hadoop,由分布式存储系统HDFS和分布式计算框架MapReduce组成,其中,HDFS由一个NameNode和多个DataNode组成,MapReduce由一个JobTracker和多个TaskTracker组成,对应Hadoop版本为Hadoop 1.x和0.21.X,0.22.x. 1.MapReduce角色分配 Client :作业提交发起者. JobTracker: 初始化作业,分配作业,与TaskTracker通信,协调整个作业. Task

初识分布式计算：从MapReduce到Yarn&Fuxi

这些年,云计算.大数据的发展如火如荼,从早期的以MapReduce为代表的基于文件系统的离线数据计算,到以Spark为代表的内存计算,以及以Storm为代表的实时计算,还有图计算等等.只要数据规模到了一定的程度,都需要依赖分布式计算来实时或者离线做出决策.虽然本人并未从事相关工作,但是了解一下还是好的. MapReduce这个词一度是分布式计算的代名词,至少代表了离线计算这一大类大数据编程范式.当提到这个词,可能是指google的论文,或者hadoop的mr实现,也或者是这种编程范式.在本文

MapReduce与Yarn 的详细工作流程分析

MapReduce详细工作流程之Map阶段如上图所示首先有一个200M的待处理文件切片:在客户端提交之前,根据参数配置,进行任务规划,将文件按128M每块进行切片提交:提交可以提交到本地工作环境或者Yarn工作环境,本地只需要提交切片信息和xml配置文件,Yarn环境还需要提交jar包:本地环境一般只作为测试用提交时会将每个任务封装为一个job交给Yarn来处理(详细见后边的Yarn工作流程介绍),计算出MapTask数量(等于切片数量),每个MapTask并行执行 MapTask中执

Hadoop新MapReduce框架Yarn详解

简介本文介绍了Hadoop自0.23.0版本后新的MapReduce框架(Yarn)原理,优势,运行机制和配置方法等,着重介绍新的yarn框架相对于原框架的差异及改进,并通过Demo示例详细介绍了在新的Yarn框架下搭建和开发Hadoop程序的方法.读者通过本文中新旧Hadoop MapReduce框架的对比,更深刻理解新的yarn框架技术与那里和设计思想,文中的Demo代码经过微小修改既可用于用户基于Hadoop新框架的实际生产环境. Hadoop MapReduceV2(Yarn)框架简介