hadoop 之inputSplit

（本文非原创，摘抄于http://blog.csdn.net/dr_guo/article/details/51150278）

　　输入分片（Input Split）：在进行map计算之前，mapreduce会根据输入文件计算输入分片（input split），每个输入分片（input split）针对一个map任务，输入分片（input split）存储的并非数据本身，而是一个分片长度和一个记录数据的位置的数组。

Hadoop 2.x默认的block大小是128MB，hadoop 1.x默认的block大小是64MB，可以在hdfs-site.xml中设置dfs.block.size，注意单位是byte。

分片大小范围可以在mapred-site.xml中设置，mapred.min.split.size mapred.max.split.size，minSplitSize大小默认为1B，maxSplitSize大小默认为Long.MAX_VALUE = 9223372036854775807

minSize=max{minSplitSize,mapred.min.split.size}

splitSize=max{minSize,min{maxSize,blockSize}}

我们看一下源码

所以：我们没有设置分片的范围的时候，分片大小是由block块大小决定的，和它的大小一样。比如把一个258MB的文件上传到HDFS上，假设block块大小是128MB，那么它就会被分成三个block块，与之对应产生三个split，所以最终会产生三个map task。我又发现了另一个问题，第三个block块里存的文件大小只有2MB，而它的block块大小是128MB，那它实际占用Linux file system的多大空间？

答案是实际的文件大小，而非一个块的大小。

时间： 2024-10-08 01:26:03

hadoop 之inputSplit的相关文章

Hadoop对小文件的解决方案

小文件指的是那些size比HDFS的block size(默认64M)小的多的文件.任何一个文件,目录和block,在HDFS中都会被表示为一个object存储在namenode的内存中, 每一个object占用150 bytes的内存空间.所以,如果有10million个文件, 每一个文件对应一个block,那么就将要消耗namenode 3G的内存来保存这些block的信息.如果规模再大一些,那么将会超出现阶段计算机硬件所能满足的极限. 控制小文件的方法有: 1.应用程序自己控制 2.arc

Hadoop MapReduce编程 API入门系列之处理Excel通话记录（二十）

不多说,直接上代码. 与家庭成员之间的通话记录一份,存储在Excel文件中,如下面的数据集所示.我们需要基于这份数据,统计每个月每个家庭成员给自己打电话的次数,并按月份输出到不同文件夹. 2016-12-12 20:04:10,203 INFO [zhouls.bigdata.myMapReduce.ExcelContactCount.ExcelContactCount$ExcelMapper] - Map processing finished2016-12-12 20:04:10,203 I

六:inputSplit分片size控制map数目

在具体执行Hadoop程序的时候,我们要根据不同的情况来设置Map的个数.除了设置固定的每个节点上可运行的最大map个数外,我们还需要控制真正执行Map操作的任务个数. 1.如何控制实际运行的map任务个数我们知道,文件在上传到Hdfs文件系统的时候,被切分成不同的Block块(默认大小为64MB).但是每个Map处理的分块有时候并不是系统的物理Block块大小.实际处理的输入分块的大小是根据InputSplit来设定的,那么InputSplit是怎么得到的呢? InputSplit=Math

hadoop编程小技巧（4）---全局key排序类TotalOrderPartitioner

Hadoop代码测试版本:Hadoop2.4 原理:在进行MR程序之前对输入数据进行随机提取样本,把样本排序,然后在MR的中间过程Partition的时候使用这个样本排序的值进行分组数据,这样就可以达到全局排序的目的了. 难点:如果使用Hadoop提供的方法来实现全局排序,那么要求Mapper的输入.输出的key不变才可以,因为在源码InputSampler中提供的随机抽取的数据是输入数据最原始的key,如下代码(line:225): for (int i = 0; i < splitsToSa

Hadoop MapReduce编程 API入门系列之统计学生成绩版本1（十七）

不多说,直接上代码. 代码 package zhouls.bigdata.myMapReduce.ScoreCount; import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FSDataInputStream;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;

hadoop进阶系列之海量web日志KPI指标提取

转载请注明出处: 转载自 Thinkgamer的CSDN博客:blog.csdn.net/gamer_gyt 代码下载地址:点击查看 1:Web日志分析系统概述 2:需求分析:日志提取预处理,KPI指标设计,存储与展现 3:算法模型:Hadoop并行算法 4:架构设计:构建hadoop项目 5:程序实现:MR2V程序实现 6:结果可视化一:Web日志分析系统概述 Web日志由Web]服务器产生,可能是Nginx,Apache,Tomcat等,从Web日志中我们可以提取到很多有用的信息,比如说

Hadoop之——数据类型

转载请注明出处:http://blog.csdn.net/l1028386804/article/details/46039055 一. Hadoop内置的数据类型 BooleanWritable:标准布尔型数值 ByteWritable:单字节数值 DoubleWritable:双字节数值 FloatWritable:浮点数 IntWritable:整型数 LongWritable:长整型数 Text:使用UTF8格式存储的文本 NullWritable:当<key, value>中的ke

hadoop多文件格式输入

版本: CDH5.0.0 (hdfs:2.3,mapreduce:2.3,yarn:2.3) hadoop多文件格式输入,一般可以使用MultipleInputs类指定不同的输入文件路径以及输入文件格式. 比如现在有如下的需求: 现有两份数据: phone: 123,good number 124,common number 125,bad number user: zhangsan,123 lisi,124 wangwu,125 现在需要把user和phone按照phone number连接起

Hadoop MapReduce编程 API入门系列之倒排索引（二十四）

不多说,直接上代码. 2016-12-12 21:54:04,509 INFO [org.apache.hadoop.metrics.jvm.JvmMetrics] - Initializing JVM Metrics with processName=JobTracker, sessionId=2016-12-12 21:54:05,166 WARN [org.apache.hadoop.mapreduce.JobSubmitter] - Hadoop command-line option

猜你喜欢

ubuntu下安装迅雷

----------------------------------2016-03-28新增适用于ubuntu16.04系列的安装包---------------------------------- ...

VIM 的配置，存着，有用

新到手的MBP高配到手一星期, 好用到流泪,先谢谢妈咪... ====================================== ============================== ...

『cs231n』作业1问题1选讲_通过代码理解K近邻算法&交叉验证选择超参数参数

通过K近邻算法探究numpy向量运算提速茴香豆的"茴"字有... ... 使用三种计算图片距离的方式实现K近邻算法: 1.最为基础的双循环 2.利用numpy的broadca机制 ...

怎样成为一个高手

其实挺早就听说过<逻辑思维>这个栏目,看过这一期之后,我印象里大概记得这几个词语:练习,刻意,笔记. 罗老师提到了套路和拆解这两个词语.学习不是漫无目的的去练习,而是将一个套路有结构的去拆 ...

centos6.5安装笔记

初学Linux,写的比较凌乱无序,给自己的学习记录笔记,如有错误,请大牛们指教. 为了方便我以后的学习,把碰到的问题,以及解决方式,做个总结.centos6.5安装1.安装模式 Desktop ...

C++ pair（对组）用法

类模板:template <class T1, class T2> struct pair 参数:T1是第一个值的数据类型,T2是第二个值的数据类型. 功能:pair将一对值组合成一个值, ...

centos+mysql5.6

下载准备好安装文件. https://dev.mysql.com/downloads/mysql/5.6.html#downloads 使用yum -y install lrzsz 安装rzsz 上 ...

Mysql的一条SQL优化（一）

开发反应做压测时并发上不去,有条SQL执行非常慢,于是explain下: MariaDB [db_vip]> MariaDB [db_vip]> explain select ...

彻底来理解下hashmap吧

1.什么叫hashmap? 答:首先是一种map集合,其次呢,它是一种利用hash表来存储的数据结构.所以叫hashmap. 2.hashmap的特点是什么? 答:hashmap的特点是key值不能重 ...

C++：对象的赋值和复制

3.6.1 对象赋值语句如同基本类型赋值语句一样,同类型的对象之间也可以进行赋值,即一个对象的值可以赋给另一个对象.这里所指的对象的赋值是指对其中的数据成员赋值,而不对成员函数赋值.例如:A和B是同 ...

存货管理

学习浪潮系统(三) (2008-01-18 09:40:11)转载▼标签: 杂谈分类: [代码记录] -------存货管理业务金额调整单功能说明:企业中,进行物料的进出不一定是严格按照入出的方式, ...

思维探索者：让记忆与学习更有效率别在别人的思考中得意着

http://www.nowamagic.net/librarys/veda/detail/1719你所拥有的知识并不取决于你记得多少,而在于它们能否在恰当的时候被回忆起来. 让我稍微说得更详细一点: ...

linux基础--压缩及归档

gzip 只能压缩文件,不能压缩目录,压缩后会删除源文件 gzip:压缩后缀为.gz -#:1-9指定压缩比,默认为6 -d:解压缩 [[email protected] study]# gzip m ...

iOS中 Realm的学习与使用韩俊强的博客

每日更新关注:http://weibo.com/hanjunqiang 新浪微博! iOS开发者交流QQ群:446310206 有问题或技术交流可以咨询!欢迎加入! 这篇直接搬了一份官方文档过来看 ...

glTF格式初步了解

glTF格式初步了解最近看到Qt 3D的进展,偶然了解到了一种新的格式:glTF格式.这种格式据说比现有的3D格式更加符合OpenGL应用的需要,这引起了我的好奇,于是我在Qt 3D的外部链接中找到 ...

C#DataGridView编辑、添加行

最近做项目需要对winfrom中的DataGirdView控件进行实时编辑个添加,保证跟数据库的数据实时同步起来. 需求:对DataGirdView进行编辑.添加,保证数据跟数据库同步. 分析:这样是 ...

html部分---样式属性；

width:宽度 height:高度  "background-color:#0F0; 背景颜色 background-i ...

(六十一)eclipse老是卡顿的问题解决办法

1.将eclipse.ini中的所有内存夸大一倍 -startup plugins/org.eclipse.equinox.launcher_1.3.0.v20140415-2008.jar --la ...

Web标准：三、二列和三列布局

知识点: 1.二列自适应宽度 2.二列固定宽度 3.二列固定宽度居中 4.xhtml的块级元素(div)和内联元素(span) 5.float属性 6.三列自适应宽度 7.三列固定宽度 8.三列固定宽 ...

HTML杂

下拉框: <td>状态:</td> <td><select id="status_query" class="form-cont ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.023 s.