MapReduce(十五): 从HDFS阅读本文的源代码分析

以Map任务读取文本数据为例：

1) LineRecordReader负责对文件切割的定位，以及对读取每一行内容的封装供用户Map任务使用。每次在定位在文件里不为0的位置时，多读取一行，由于前一个处理该位置之前的数据时，会完整把该一行已经读取并处理。

2) LineReader负责对所要訪问文件输入流的数据进行每一行读取，仅仅实现对每一行读取的逻辑。

3) DFSDataInputStream封装了DFSInputStream的实现，直接调用DFSInputStream接口完毕。

4) DFSInputStream，负责对所訪问文件block的管理，提供定位block位置和提供block数据流读取的接口。

定位到所读取的位置在哪个block中后，打开与该block的socket连接，然后从封装socket的RemoteBlockReader中读取数据：

依据定位到的block在哪个主机，打开与该主机的socket连接：

获取block信息后，開始获取数据流：

5) RemoteBlockReader,对打开socket获取DataNode输入流DataInputStream进行封装，開始读取文件数据，文件数据是DataNode依照每一个chunk封装一次传输给client，client给每一个chunk检查数据完整性。

提供给上层读取socket中数据流接口：

開始从一个个chunk中读取数据：

每一个chunk的读取：

6) Block传输读协议

先是client打开连接后，向DataNode输入block的信息：

然后DataNode依照一个个chunk向DFSClient发送数据流供读，chunk的数据格式，依照数据读取先后顺序罗列：

时间： 2024-10-05 18:17:22

MapReduce(十五): 从HDFS阅读本文的源代码分析的相关文章

MapReduce(十五): 从HDFS读取文件的源码分析

以Map任务读取文本数据为例: 1) LineRecordReader负责对文件分割的定位,以及对读取每一行内容的封装供用户Map任务使用.每次在定位在文件中不为0的位置时,多读取一行,因为前一个处理该位置之前的数据时,会完整把该一行已经读取并处理. 2) LineReader负责对所要访问文件输入流的数据进行每一行读取,只实现对每一行读取的逻辑. 3) DFSDataInputStream封装了DFSInputStream的实现,直接调用DFSInputStream接口完成. 4)

多线程（十五、ConcurrentHashMap原理二类和方法分析）

ConcurrentHashMap的构造 ConcurrentHashMap,采用了一种"懒加载"的模式,只有到首次插入键值对的时候,才会真正的去初始化table数组. 构造方法: 1.空构造函数,默认桶大小162.指定桶初始容量的构造器,必须是2次幂值 /** * 指定table初始容量的构造器. * tableSizeFor会返回大于入参(initialCapacity + (initialCapacity >>> 1) + 1)的最小2次幂值 */ publi

2015私人阅读十五佳

2015私人阅读十五佳 2015私人阅读十五佳统计私人阅读十五佳非暴力沟通沟通的艺术看入人里看出人外父母效能训练手册对伪心理学说不精益创业新创企业的成长思维枪炮病菌与钢铁人类简史从动物到上帝现代世界史狂热分子群众运动圣经独裁者手册社会主义经济与社会学的分析编码隐匿在计算机软硬件背后的语言儒家哲学水浒传注评本蒋介石与现代中国统计 2015年一共读完46本,其中五星18本,占比40%:四星17本,占比近40%:三星7本:两星4本.阅读主题以社科.历史.

ng机器学习视频笔记（十五） ——大数据机器学习(随机梯度下降与map reduce)

ng机器学习视频笔记(十五) --大数据机器学习(随机梯度下降与map reduce) (转载请附上本文链接--linhxx) 一.概述 1.存在问题当样本集非常大的时候,例如m=1亿,此时如果使用原来的梯度下降算法(也成为批量梯度下降算法(batch gradient descent),下同),则速度会非常慢,因为其每次遍历整个数据集,才完成1次的梯度下降的优化.即计算机执行1亿次的计算,仅仅完成1次的优化,因此速度非常慢. 2.数据量考虑在使用全量数据,而不是摘取一部分数据来做机器学习,

秒杀多线程第十五篇关键段,事件,互斥量,信号量的“遗弃”问题

版权声明:本文为博主原创文章,未经博主允许不得转载. 目录(?)[+] 秒杀多线程第十五篇关键段,事件,互斥量,信号量的“遗弃”问题在<秒杀多线程第九篇经典线程同步总结关键段事件互斥量信号量>中对经典多线程同步互斥问题进行了回顾和总结,这篇文章对Windows系统下常用的线程同步互斥机制——关键段.事件.互斥量.信号量进行了总结.有网友问到互斥量能处理“遗弃”问题,事件和信号量是否也能处理“遗弃”问题.因此本文将对事件和信号量作个试验,看看事件和信号量能否处理“遗弃”问题. 一.

x264代码剖析（十五）：核心算法之宏块编码中的变换编码

x264代码剖析(十五):核心算法之宏块编码中的变换编码为了进一步节省图像的传输码率,需要对图像进行压缩,通常采用变换编码及量化来消除图像中的相关性以减少图像编码的动态范围.本文主要介绍变换编码的相关内容,并给出x264中变换编码的代码分析. 1.变换编码变换编码将图像时域信号变换成频域信号,在频域中图像信号能量大部分集中在低频区域,相对时域信号,码率有较大的下降. H.264对图像或预测残差采用4×4整数离散余弦变换技术,避免了以往标准中使用的通用8×8离散余弦变换逆变换经常出现的失配问题

15. 蛤蟆的数据结构进阶十五排序实现之堆排序

15. 蛤蟆的数据结构进阶十五排序实现之堆排序本篇名言:"谁要是游戏人生 ,他就一事无成 ; 谁不能主宰自己 ,永远是一个奴隶.--歌德" 继续来看下堆排序. 欢迎转载,转载请标明出处:http://blog.csdn.net/notbaron/article/details/47733553 1. 堆排序堆排序(Heapsort)是指利用堆积树(堆)这种数据结构所设计的一种排序算法,它是选择排序的一种.可以利用数组的特点快速定位指定索引的元素.堆分为大根堆和小根堆,是完全二叉树

苹果新的编程语言 Swift 语言进阶（十五）－－协议

协议定义了适合某个特定任务或功能需要的方法.属性和其它需求的一个蓝图.协议本身不提供这些需求的实现,它只是描述了一个任务或功能实现的蓝图. 协议与java 语言中的接口定义类似,都是描述了一个实现可以干什么,而本身却不包含任何实现.与接口不同的是swift语言定义的协议可以被一个类.结构.或者枚举采用,来提供协议规定需求的实际实现,而java 语言的接口只能被类实现. ... 请麻烦转移到此位置阅读,谢谢! 苹果新的编程语言 Swift 语言进阶(十五)--协议苹果新的编程语言

第十五章链表

/** 数组与链表的区别:数组易随机访问,链表易插入和删除链表组成:储存数据元素的数据域,储存下一结点地址的指针域链表易于插入与删除 lists 的用法????????????????????? *///建立一个图书链表 #include<iostream> #include <string> using namespace std; struct book //第一步: 用于建立节点. class 默认为私有 struct 默认为公有 //节点组成:①数据域 ②指针域(*ne

猜你喜欢

从LINQ开始之LINQ to Objects（下）

前言上一篇<从LINQ开始之LINQ to Objects(上)>主要介绍了LINQ的体系结构.基本语法以及LINQ to Objects中标准查询操作符的使用方法.本篇则主要讨论LIN ...

.net core 7

第六单元用户.群组和权限 1) 新建用户natasha,uid为1000,gid为555,备注信息为"master" useradd -u 1000 -g 555 -c mas ...

浮点数在内存中的存储（简述）

数据类型: 1.基本类型(整形,浮点型,字符型) 2.构造类型(数组,结构体,联合,枚举) 3.指针类型查看数据范围:整形范围(limits.h) 浮点型类型(flaot.h) eg:有符号的cha ...

Android之——拦截外拨电话

转载请注明出处:http://blog.csdn.net/l1028386804/article/details/46993859 这里,向大家简单介绍通过BroadcastReceiver来拦截外拨 ...

HTTP协议（一）

HTTP协议的全称是Hypertext Transfer Protocol,超文本传输协议,是移动客户端和PC端访问网络资源经常使用的一种协议.HTTP协议是在网络开发中最常用的协议之一,它的格式是: ...

jQuery$命名冲突问题解决方法

也许你在看此文章之前还不知道jquery有一个noConflict()东西了,它就是为了避免与其它js插件碰到相同变量的一个解决方法,利用noConflict()可以把变量存到其它指定的变量中去如,我 ...

coco2d-x 3.1 eclipse

1.首先是Android NDK的配置:下面的链接写的很完整可以直接参照: http://blog.csdn.net/pocoyoshamoo/article/details/23533923 2.在 ...

关于文件夹的所有文件名称修改以及输出

背景:我有一个文件夹,里面有几十首歌曲,我想给每首歌曲的名称前加个数字如:001_邓紫棋-喜欢你.flac 002_GALA-追梦赤子心.flac …… 然后再输出到一个txt文档内(或者Excel ...

2016/1/1 运算符笔记整理接2015/12/30 Java 语法

④运算符 1,赋值运算符:实现从右向左的赋值,符号= 2,算术运算符:符号 + - * / %(求余或求模),结果自动转成最大的类型,自动升级. 3, 比较运算符:符号 < <= > ...

十五、流程控制之do循环

using System; using System.Collections.Generic; using System.Linq; using System.Text; namespace _15. ...

小吴的外包之殇

今年的8月相对于往年没有什么变化,天还是适合八分熟的牛排,雨水还是那么稀里哗啦一阵阵与滚滚热浪翻天覆地的争夺着地盘.可对于小吴,没那么简单.今年的8月是小吴职业生涯中又一个分水岭,却增添了更多的不确定 ...

CKFinder 弹出窗口操作并设置回调函数

CKFinder 弹出窗口操作并设置回调函数官方例子参考CKFinderJava-2.4.1/ckfinder/_samples/popup.html 写一个与EXT集成的小例子 Ext.defin ...

Hibernate框架--对象的状态，缓存，映射

回顾Hibernate第二天: 1. 一对多与多对一 2. 多对多 3. inverse/cascade 4. 关联关系的维护一对多: <set name="映射的集合属性&quo ...

老蔡写的代码，借鉴下！

var $info_b=$('div.info_b'),$xiaoxi = $info_b.find('div.xt-xiaoxi'); function DSQ(){ $('#'+footid).h ...

JSBinding+SharpKit / 更新的原理

首先,其实不是热更新,而是更新. 热更新意思是不重启游戏,但只要你脚本里有存储数据,就不可能.所以只能叫更新. 但大家都这么说,所以... 先举个具体的例子: 如果是C#:在 Prefab 的 Gam ...

设计模式之——Template模板模式

Template模式又叫模板模式,是在父类中定义处理流程的框架,在子类中实现具体处理逻辑的模式.当父类的模板方法被调用时程序行为也会不同,但是,不论子类的具体实现如何,处理的流程都会按照父类中所定义的 ...

css选择器（选择<div>内所有<p>元素）

情况1:<div><p></div> 情况2:<div><a><p></p></a></div&g ...

[bfs][A star][入门题]uva439 knightMoves

A*初步 A*要保证最短路一定要估价函数小于实际值,越接近越好 /*jerryRey 转载请注明出处,谢谢 http://www.cnblogs.com/jerryRey/ */ #include&l ...

简单拖拽实现

拖拽的元素必须绝对定位. var Drag = { // 拖拽元素 obj: null, //el: 拖拽元素 //minX: X轴最小边界 //minY: Y轴最小边界 //maxX: X轴最大边界 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.020 s.