Hadoop 读写数据流

Hadoop文件读取

1）客户端通过调用FileSystem对象中的open()函数来读取它做需要的数据。FileSystem是HDFS中DistributedFileSystem的一个实例。

2）DistributedFileSystem会通过RPC协议调用NameNode来确定请求文件块所在的位置。

这里需要注意的是，NameNode只会返回所调用文件中开始的几个块而不是全部返回。对于每个返回的块，都包含块所在的DataNode地址。随后，这些返回的DataNode会按照Hadoop定义的集群拓扑结构得出客户端的距离，然后再进行排序。如果客户端本身就是一个DataNode，那么它就从本地读取文件。其次，DistributedFileSystem会向客户端返回一个支持文件定位的输入流对象FSDataInputStream，用于给客户端读取数据。FSDataInputStream包含一个DFSInputStream对象，这个对象用来管理DataNode和NameNode之间的IO。

3）当以上步骤完成时，客户端便会在这个输入流上调用read()函数。

4）DFSInputStream对象中包含文件开始部分数据块所在的DataNode地址，首先它会连接文件第一个块最近的DataNode。随后，在数据流中重复调用read()函数，直到这个块完全读完为止。

5）当第一个块读取完毕时，DFSInputStream会关闭连接，并查找存储下一个数据库距离客户端最近的DataNode。以上这些步骤对于客户端来说都是透明的。

6）客户端按照DFSInputStream打开和DataNode连接返回的数据流的顺序读取该块，它也会调用NameNode来检索下一组块所在的DataNode的位置信息。当完成所有文件的读取时，客户端则会在DFSInputStream中调用close()函数。

那么如果客户端正在读取数据时节点出现故障HDFS会怎么办呢？目前HDFS是这样处理的：如果客户端和所连接的DataNode在读取时出现故障，那么它就会去尝试连接存储这个块的下一个最近的DataNode，同时它会记录这个节点的故障，以免后面再次连接该节点。客户端还会验证从DataNode传送过来的数据校验和。如果发现一个损坏块，那么客户端将再尝试从别的DataNode读取数据块，向NameNode报告这个信息，NameNode也会更新保存的文件信息。

这里关注的一个设计要点是，客户端通过NameNode引导获取最合适的DataNode地址，然后直接连接DataNode读取数据。这样设计的好处在于，可以使HDFS扩展到更大规模的客户端并行处理，这是因为数据的流动是在所有DataNode之间分散进行的；同时NameNode的压力也变小了，使得NameNode只用提供请求块所在的位置信息就可以了，而不用通过它提供数据，这样就避免了NameNode随着客户端数量的增长而成为系统瓶颈。

Hadoop文件写入

Highlight：DataNode中的副本是异步完成的

1）客户端通过调用DistributedFileSystem对象中的create()函数创建一个文件。DistributedFileSystem通过RPC调用在NameNode的文件系统命名空间中创建一个新文件，此时还没有相关的DataNode与之相关。

2）NameNode会通过多种验证保证新的文件不存在文件系统中，并且确保请求客户端拥有创建文件的权限。当所有验证通过时，NameNode会创建一个新文件的记录，如果创建失败，则抛出一个IOException异常；如果成功，则DistributedFileSystem返回一个FSDataOutputStream给客户端用来写入数据。这里FSDataOutputStream和读取数据时的FSDataOutputStream一样都包含一个数据流对象DFSOutputStream，客户端将使用它来处理和DataNode及NameNode之间的通信。

3）当客户端写入数据时，DFSOutputStream会将文件分割成包，然后放入一个内部队列，我们称为“数据队列”。DataStreamer会将这些小的文件包放入数据流中，DataStreamer的作用是请求NameNode为新的文件包分配合适的DataNode存放副本。返回的DataNode列表形成一个“管道”，假设这里的副本数是3，那么这个管道中就会有3个DataNode。DataStreamer将文件包以流的方式传送给队列中的第一个DataNode。第一个DataNode会存储这个包，然后将它推送到第二个DataNode中，随后照这样进行，直到管道中的最后一个DataNode。

4）DFSOutputStream同时也会保存一个包的内部队列，用来等待管道中的DataNode返回确认信息，这个队列被称为确认队列（ask queue）。只有当所有的管道中的DataNode都返回了写入成功的信息文件包，才会从确认队列中删除。

当然HDFS会考虑写入失败的情况，当数据写入节点失败时，HDFS会作出以下反应.首先管道会被关闭，任何在确认通知队列中的文件包都会被添加到数据队列的前端，这样管道中失败的DataNode都不会丢失数据。当前存放于正常工作DataNode之上的文件块会被赋予一个新的身份，并且和NameNode进行关联，这样，如果失败的DataNode过段时间从故障中恢复过来，其中的部分数据块就会被删除。然后管道会把失败的DataNode删除，文件会继续被写到管道中的另外两个DataNode中。最后NameNode会注意到现在的文件块副本数没有到达配置属性要求，会在另外的DataNode上重新安排创建一个副本。随后的文件会正常执行写入操作。

当然，在文件块写入期间，多个DataNode同时出现故障的可能性存在，但是很小。只要dfs.replication.min的属性值（默认为1）成功写入，这个文件块就会被异步复制到其他DataNode中，直到满足dfs.replictaion属性值（默认值为3）。

客户端成功完成数据写入的操作后，就会调用close()函数关闭数据流。这步操作会在连接NameNode确认文件写入完全之前将所有剩下的文件包放入DataNode管道，等待通知确认信息。NameNode会知道哪些块组成一个文件（通过DataStreamer获得块的位置信息），这样NameNode只要在返回成功标志前等待块被最小量（dfs.replication.min）复制即可。

参考文献：

《Hadoop实战》第9章 HDFS详解

时间： 2024-11-13 12:11:28

Hadoop 读写数据流的相关文章

HDFS中的读写数据流

1.文件的读取在客户端执行读取操作时,客户端和HDFS交互过程以及NameNode和各DataNode之间的数据流是怎样的?下面将围绕图1进行具体讲解. 图 1 客户端从HDFS中读取数据 1)客户端通过调用FileSystem对象中的open()函数来读取它做需要的数据.FileSystem是HDFS中DistributedFileSystem的一个实例. 2)DistributedFileSystem会通过RPC协议调用NameNode来确定请求文件块所在的位置. 这里需要注意的是,Nam

hdfs的读写数据流

hdfs的读: 首先客户端通过调用fileSystem对象中的open()函数读取他需要的的数据,fileSystem是DistributedFileSystem的一个实例, DistributedFileSystem会通过rpc协议和nameNode通信,来确定请求文件块所在的位置.对于每个返回的块都包含, 该块所在的dataNode的地址,然后这些返回的dataNode,会按照hadoop定义的集群拓扑结构得出dataNode与客户端的距离,然后进行排序.如果客户端本身就是一个dataNo

hadoop 读写 elasticsearch 初探

1.参考文档: http://www.elasticsearch.org/guide/en/elasticsearch/hadoop/current/configuration.html http://www.elasticsearch.org/guide/en/elasticsearch/hadoop/current/mapreduce.html#_emphasis_old_emphasis_literal_org_apache_hadoop_mapred_literal_api 2.Mapr

hadoop学习笔记--hadoop读写文件过程

读取文件: 下图是HDFS读取文件的流程: 这里是详细解释: 1.当客户端开始读取一个文件时,首先客户端从NameNode取得这个文件的前几个block的DataNode信息.(步骤1,2) 2.开始调用read(),read()方法里,首先去读取第一次从NameNode取得的几个Block,当读取完成后,再去NameNode拿下一批Block的DataNode信息.(步骤3,4,5) 3. 调用Close方法完成读取.(步骤6) 当读取一个Block时如果出错了怎么办呢.客户端会去另一个最佳

大数据时代之hadoop(三)：hadoop数据流（生命周期）

了解hadoop,首先就需要先了解hadoop的数据流,就像了解servlet的生命周期似的.hadoop是一个分布式存储(hdfs)和分布式计算框架(mapreduce),但是hadoop也有一个很重要的特性:hadoop会将mapreduce计算移动到存储有部分数据的各台机器上. 术语 MapReduce 作业(job)是客户端需要执行的一个工作单元:它包括输入数据.mapreduce程序和配置信息.hadoop将作业分成若干个小任务(task)来执行,其中包括两类任务:map任务和redu

Hadoop集群（第8期）_HDFS初探之旅

1.HDFS简介 HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的商用服务器上.它所具有的高容错.高可靠性.高可扩展性.高获得性.高吞吐率等特征为海量数据提供了不怕故障的存储,为超大数据集(Large Data Set)的应用处理带来了很多便利. Hadoop整合了众多文件系统,在其中有一个综合性的文件系统抽象,它提供了文件系统实现的各类接口

Hadoop学习第一次：hadoop概念

1.大数据学习方向:一是系统建设技术,二,海量数据应用. 先说系统建设,现在主流的技术是HADOOP,主要基于mapreduce的分布式框架.目前可以先学习这个.但是我的观点,在分布式系统出来之前,主要是集中式架构,如DB2,oracle.为什么现在用分布式架构,那是因为现在集中式架构受限于IO性能,出来速度慢,如果又一种硬件技术,可以很快地处理海量数据,性能上能满足需求,那么集中式架构优于分布式架构,因为集中式架构稳定,运维压力小.现在的集中式架构要么性能达不到要求,要么就是过于昂贵.我期待一

MapReduce数据流

MapReduce的输入一般来自HDFS中的文件,这些文件分布存储在集群内的节点上.运行一个MapReduce程序会在集群的许多节点甚至所有节点上运行mapping任务,每一个mapping任务都是平等的:mappers没有特定“标识物”与其关联.因此,任意的mapper都可以处理任意的输入文件.每一个mapper会加载一些存储在运行节点本地的文件集来进行处理(译注:这是移动计算,把计算移动到数据所在节点,可以避免额外的数据传输开销). 当mapping阶段完成后,这阶段所生成的中间键值对数据必

MapReduce数据流（一）

在上一篇文章中我们讲解了一个基本的MapReduce作业由那些基本组件组成,从高层来看,所有的组件在一起工作时如下图所示: 图4.4高层MapReduce工作流水线 MapReduce的输入一般来自HDFS中的文件,这些文件分布存储在集群内的节点上.运行一个MapReduce程序会在集群的许多节点甚至所有节点上运行mapping任务,每一个mapping任务都是平等的:mappers没有特定“标识物”与其关联.因此,任意的mapper都可以处理任意的输入文件.每一个mapper会加载一些存储在运

猜你喜欢

封装: 将类的某些信息隐藏在类内部,不允许外部程序直接访问,而是通过类提供的方法来实现对隐藏信息的操作和访问. 好处:1.通过规定的方法访问数据 2.隐藏类的实例细节,方便修改和实现 3)封装的实现步 ...

操作数据库的魔法函数

function bind(){ global $dbhost,$dbuser,$db,$dbpass; //首先我们不知道外面会传入多少个参数//可以用func_get_args()方法来获取全部传 ...

模板方法模式（Template Pattern）

模板方法模式:在一个方法中定义一个算法的骨架,而将一些步骤延迟到子类中.模板方法使得子类可以在不改变算法的结构下,重新定义算法中的某些步骤. 这个模式是用来创建一个算法模板.模板就是一个方法.更具体地 ...

.net实现网站用户登录认证

cookie登录后同域名下的网站保持相同的登录状态. 登录 private void SetAuthCookie(string userId, bool createPersistentCookie) ...

PandaRSS 自助服务系统安装配置

PandaRSS 是一个第三方开发者(pandaman)提供的基于 ToughRADIUS V2版本 API 的自助服务系统. PandaRSS 为ToughRADIUS 的使用者提供了一个网上服务渠 ...

POJ 1228 Grandpa's Estate --深入理解凸包

题意: 判断凸包是否稳定. 解法: 稳定凸包每条边上至少有三个点. 这题就在于求凸包的细节了,求凸包有两种算法: 1.基于水平序的Andrew算法 2.基于极角序的Graham算法两种算法都有一个类 ...

Unable to create request (bad url?) 解决方案

今天写一个测试demo,遇到如下问题: Error Domain=ASIHTTPRequestErrorDomain Code=5 "Unable to create request (ba ...

HTML+CSS学习总结：

1. 注释:<div> 是一个块级元素,也就是说,浏览器通常会在 div 元素前后放置一个换行符. 提示:请使用 <div> 元素来组合块级元素,这样就可以使用样式对它们进行格 ...

初学者必须掌握的redis 基础

这篇文章总结了常用的redis基础知识,希望初学者能够从中受益. 一 redis数据类型 redis支持5种类型的数据类型,它描述如下的: 1. 字符串 Redis字符串是字节序列.Redis字符串是 ...

css预处理器sass安装配置（本地安装）

1.安装Ruby 2.下载sass安装包.放入文件夹,最好放入bin中.(被墙了,只好本地装) 3.从ruby的命令行安装本地的安装包 sass安装好了.

java算法——排序

1.冒泡排序中心思想:在要排序的一组数中,对当前还未排好序的范围内的全部数,自上而下对相邻的两个数依次进行比较和调整,让较大的数往下沉,较小的往上冒. 1 public static int[] B ...

安卓模拟器Android SDK 4.0.3 R2安装完整图文教程

在最新的Android 4.0.3 R2模拟器中,已经加入了GPU支持,可以支持OpenGL ES 2.0标准,让开发者可以借助模拟器来测试自己的OpenGL游戏.在去年新增了摄像头支持之后,现在的新 ...

字符的逆序输出

输入代码: /* * Copyright (c) 2014, 烟台大学计算机学院 * All rights reserved. * 文件名称:sum123.cpp * 作者:林海云 * 完成日期:2 ...

timeit模块: 1) timeit.timeit(stmt='pass', setup='pass', timer=<defaulttimer>, number=1000000) 返回 ...

android 开发：Json的发送和接收

最近在搞一个android app,使用到和服务器的json交互技术.服务器端我是简单的使用servlet,来接收来自app的请求,处理json使用org.json这个jar包. 服务器端: 1. 将 ...

使用jstl标签遍历双层的map（map下面的map）

<c:forEach var="firstMap" items="${map}"> <c:forEach var="secondMa ...

最近DevOps相关文章

最近DevOps相关文章: 解析传统企业敏捷运维之道 http://mp.weixin.qq.com/s?__biz=MjM5MTYwNjA1OA==&mid=401801291&id ...

CASE 练习题（名词解释和简答)

1.项目计划 2.项目分解结构 3.甘特图 4.任务成本 5.关键路径 6.简述项目计划的执行过程. 7.简述项目的特征. 8.简述项目计划的编制步骤. 9.简述制定项目目标的依据. 10.简述使用甘 ...

ios的自学与开发

iOS 开发学习的第一个选择往往是自学与培训.自学的一般不是不信邪就是穷,这是不言自明的.在学习初期,遇到的新手朋友们经历各异,有刚毕业的应届生,有干了几年其它平台想转行的老程序员,也有风马牛不相及的 ...

修改Oracle，mysql最大连接数

1.修改Oracle最大连接数的方法 a.以sysdba身份登陆PL/SQL 或者 Worksheet b.查询目前连接数 show parameter processes; c.更改系统连接数 al ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.021 s.