Hadoop新版和旧版中InputSplit大小的区别

Hadoop旧版中InputSplit的个数由下面三个参数决定:

goalSize:totalSize/numSpilt.totalSize为文件大小,numSplit为用户设定的map task个数,默认为1.

minSize:InputSplit的最小值,由配置参数 mapred.min.split.size,默认为1.

blockSize:HDFS中块的大小.

splitSize = max(minSize,min(goalSize,blockSIze))

新版:

maxSize:由配置参数mapred.max.split.size确定,已经不再考虑用户设定的map task个数.

minSize:InputSplit的最小值,由配置参数 mapred.min.split.size,默认为1.

blockSize:HDFS中块的大小.

splitSize = max(minSize,min(maxSize,blockSIze))

时间: 2024-10-20 18:47:26

Hadoop新版和旧版中InputSplit大小的区别的相关文章

短网址中的大小写有区别吗

短网址在现在的新媒体推广中使用越来越频繁,短网址的使用也给新媒体的运营推广带来了很多便利.但是你们有注意到这些短链接中出现了大写字母吗? 在大家的传统意识里,网址都是英文小写为主,那短网址中的大小写有区别吗? 一般来说 url 是大小写无所谓的.但是,短网址服务为了让网址尽可能的短,会尽量增加每一个字符的编码意义,从而增加可以服务的数量.短网址服务的一般原理是,将你的长网址保存在数据库中,并分配一个唯一的 id 给这个网址.然后访问 xxx/ID 时,短网址的服务器自动查询并帮你跳转到对应的原始

JS限定手机版中图片大小随分辨率自动调整

<script type="text/javascript"> var ObjImg = jQuery(".Dy_Content img"); for (var i = 0; i < ObjImg.length; i++) { loadImage(ObjImg.eq(i)); } function loadImage(Obj) { var b_width = 320; var img = new Image(); img.src = jQuery(

修改hadoop脚本改变CLASSPATH中jar加载顺序

先说一下环境,有两个集群,一个新的一个旧的,打算把新的调试好然后把旧的关掉. 新:Cloudera Express 5.6.0,CDH-5.6.0 旧: Cloudera Express 5.0.5,CDH-5.0.5 新集群搭建过程中发现一个问题,执行以下命令对lzo文件创建索引,在新集群中job无法提交到指定队列,同样的命令在旧集群中正常: hadoop jar hadoop-lzo.jar com.hadoop.compression.lzo.DistributedLzoIndexer  

(二)Hadoop例子——运行example中的wordCount例子

Hadoop例子——运行example中的wordCount例子 一.   需求说明 单词计数是最简单也是最能体现MapReduce思想的程序之一,可以称为 MapReduce版"Hello World",该程序的完整代码可以在Hadoop安装包的"src/examples"目录下找到.单词计数主要完成功能是:统计一系列文本文件中每个 单词出现的次数,如下图所示. 二.   环境 VMware® Workstation 10.04 Ubuntu14.04 32位 J

CentOS-6.4-minimal版中Apache-2.2.29与Tomcat-6.0.41实现集群

/** * CentOS-6.4-minimal版中Apache-2.2.29与Tomcat-6.0.41实现集群 * ---------------------------------------------------------------------------------------------------------------------- * 本文建立在Apache-2.2.29与Tomcat-6.0.41实现负载均衡的基础上,实现过程详见http://blog.csdn.net

CentOS-6.4-minimal版中通过JK-1.2.40整合Apache-2.2.29与Tomcat-6.0.41

/** * CentOS-6.4-minimal版中通过JK-1.2.40整合Apache-2.2.29与Tomcat-6.0.41 * ---------------------------------------------------------------------------------------------------------------------- * AJP(Apache JServer Protocol) * Tomcat提供了专门的JK插件来负责Tomcat和HTT

Civil 3D 2017本地化中VBA程序移植到2018版中

中国本地化包简直就是一块鸡肋, 但对于某些朋友来说还真离不了: 可惜中国本地化包的退出一直滞后, 在最新版软件出来后1年多, 本地化还不一定能够出来, 即使出来了, 也只能是购买了速博服务的用户才能得到. 在2017版的本地化包中, 包含了一些2009版的VBA源代码, 虽然不全, 没有包含本地化包的所有功能, 但对于想学习使用VBA进行Civil 3D二次开发的朋友来说, 作为样例文件,还是不错的选择. 下面就以AlignSectionDataPortTool.dvb为例, 演示一下如何让这些

从零开始学习hadoop之发行版选择

从零开始学习hadoop之发行版选择 经常会看到这样的问题:零基础学习hadoop难不难?有的人回答说:零基础学习hadoop,没有想象的那么难,也没有想象的那么容易.看到这样的答案不免觉得有些尴尬,这个问题算是白问了,因为这个回答似乎什么也没给出来.这个问题的关键在于"零基础"到底是个什么样的基础? 所谓的零基础大体可以分为两种:第一种是hadoop初学者,有一定的Linux基础.虚拟机和Java基础:第二种是hadoop兴趣爱好者,但缺乏最基本的Linux基础.虚拟机和Java基础

RHEL7.X系列及周边Linux发行版中,关于MBR与GPT的选择一些思考与建议

一.引言 存储的选型.规划与管理等工作一直以来都是日常系统运维工作中的重点.MBR与GPT两种类型的分区表的选择与使用则是在磁盘管理中需要根据应用场景来注或考虑的要点.结合笔者多年的运维工作经验,引发了对这些问题的一些思考,借此文进行一些分享. 二.相关知识点 2.1 MBR 主引导记录(Master Boot Record,缩写:MBR),又叫做主引导扇区,是计算机开机后访问硬盘时所必须要读取的首个扇区,它在硬盘上的三维地址为(柱面,磁头,扇区)=(0,0,1).在深入讨论主引导扇区内部结构的