HDFS中的读写数据流

1.文件的读取

在客户端执行读取操作时，客户端和HDFS交互过程以及NameNode和各DataNode之间的数据流是怎样的？下面将围绕图1进行具体讲解。

　　　　　　　　　　图 1 客户端从HDFS中读取数据

1）客户端通过调用FileSystem对象中的open()函数来读取它做需要的数据。FileSystem是HDFS中DistributedFileSystem的一个实例。

2）DistributedFileSystem会通过RPC协议调用NameNode来确定请求文件块所在的位置。

这里需要注意的是，NameNode只会返回所调用文件中开始的几个块而不是全部返回。对于每个返回的块，都包含块所在的DataNode地址。随后，这些返回的DataNode会按照Hadoop定义的集群拓扑结构得出客户端的距离，然后再进行排序。如果客户端本身就是一个DataNode，那么它就从本地读取文件。其次，DistributedFileSystem会向客户端返回一个支持文件定位的输入流对象FSDataInputStream，用于给客户端读取数据。FSDataInputStream包含一个DFSInputStream对象，这个对象用来管理DataNode和NameNode之间的IO。

3）当以上步骤完成时，客户端便会在这个输入流上调用read()函数。

4）DFSInputStream对象中包含文件开始部分数据块所在的DataNode地址，首先它会连接文件第一个块最近的DataNode。随后，在数据流中重复调用read()函数，直到这个块完全读完为止。

5）当第一个块读取完毕时，DFSInputStream会关闭连接，并查找存储下一个数据库距离客户端最近的DataNode。以上这些步骤对于客户端来说都是透明的。

6）客户端按照DFSInputStream打开和DataNode连接返回的数据流的顺序读取该块，它也会调用NameNode来检索下一组块所在的DataNode的位置信息。当完成所有文件的读取时，客户端则会在DFSInputStream中调用close()函数。

那么如果客户端正在读取数据时节点出现故障HDFS会怎么办呢？目前HDFS是这样处理的：如果客户端和所连接的DataNode在读取时出现故障，那么它就会去尝试连接存储这个块的下一个最近的DataNode，同时它会记录这个节点的故障，以免后面再次连接该节点。客户端还会验证从DataNode传送过来的数据校验和。如果发现一个损坏块，那么客户端将再尝试从别的DataNode读取数据块，向NameNode报告这个信息，NameNode也会更新保存的文件信息。

这里关注的一个设计要点是，客户端通过NameNode引导获取最合适的DataNode地址，然后直接连接DataNode读取数据。这样设计的好处在于，可以使HDFS扩展到更大规模的客户端并行处理，这是因为数据的流动是在所有DataNode之间分散进行的；同时NameNode的压力也变小了，使得NameNode只用提供请求块所在的位置信息就可以了，而不用通过它提供数据，这样就避免了NameNode随着客户端数量的增长而成为系统瓶颈。

2.文件的写入

那HDFS中文件的写入过程又是怎样的呢？以下将围绕图2来进行介绍。

　　　　　　　　　　图2 客户端在HDFS中写入数据

1）客户端通过调用DistributedFileSystem对象中的create()函数创建一个文件。DistributedFileSystem通过RPC调用在NameNode的文件系统命名空间中创建一个新文件，此时还没有相关的DataNode与之相关。

2）NameNode会通过多种验证保证新的文件不存在文件系统中，并且确保请求客户端拥有创建文件的权限。当所有验证通过时，NameNode会创建一个新文件的记录，如果创建失败，则抛出一个IOException异常；如果成功，则DistributedFileSystem返回一个FSDataOutputStream给客户端用来写入数据。这里FSDataOutputStream和读取数据时的FSDataOutputStream一样都包含一个数据流对象DFSOutputStream，客户端将使用它来处理和DataNode及NameNode之间的通信。

3），4）当客户端写入数据时，DFSOutputStream会将文件分割成包，然后放入一个内部队列，我们称为“数据队列”。DataStreamer会将这些小的文件包放入数据流中，DataStreamer的作用是请求NameNode为新的文件包分配合适的DataNode存放副本。返回的DataNode列表形成一个“管道”，假设这里的副本数是3，那么这个管道中就会有3个DataNode。DataStreamer将文件包以流的方式传送给队列中的第一个DataNode。第一个DataNode会存储这个包，然后将它推送到第二个DataNode中，随后照这样进行，直到管道中的最后一个DataNode。

5）DFSOutputStream同时也会保存一个包的内部队列，用来等待管道中的DataNode返回确认信息，这个队列被称为确认队列（ask queue）。只有当所有的管道中的DataNode都返回了写入成功的信息文件包，才会从确认队列中删除。

当然HDFS会考虑写入失败的情况，当数据写入节点失败时，HDFS会作出以下反应.首先管道会被关闭，任何在确认通知队列中的文件包都会被添加到数据队列的前端，这样管道中失败的DataNode都不会丢失数据。当前存放于正常工作DataNode之上的文件块会被赋予一个新的身份，并且和NameNode进行关联，这样，如果失败的DataNode过段时间从故障中恢复过来，其中的部分数据块就会被删除。然后管道会把失败的DataNode删除，文件会继续被写到管道中的另外两个DataNode中。最后NameNode会注意到现在的文件块副本数没有到达配置属性要求，会在另外的DataNode上重新安排创建一个副本。随后的文件会正常执行写入操作。

当然，在文件块写入期间，多个DataNode同时出现故障的可能性存在，但是很小。只要dfs.replication.min的属性值（默认为1）成功写入，这个文件块就会被异步复制到其他DataNode中，直到满足dfs.replictaion属性值（默认值为3）。

6）客户端成功完成数据写入的操作后，就会调用close()函数关闭数据流。这步操作会在连接NameNode确认文件写入完全之前将所有剩下的文件包放入DataNode管道，等待通知确认信息。NameNode会知道哪些块组成一个文件（通过DataStreamer获得块的位置信息），这样NameNode只要在返回成功标志前等待块被最小量（dfs.replication.min）复制即可。

参考资料：Hadoop实战第2版陆嘉恒著

HDFS中的读写数据流

时间： 2024-08-05 19:36:58

HDFS中的读写数据流的相关文章

hadoop学习；大数据集在HDFS中存为单个文件；安装linux下eclipse出错解决；查看.class文件插件

sudo apt-get install eclipse 安装后打开eclipse,提示出错 An error has occurred. See the log file /home/pengeorge/.eclipse/org.eclipse.platform_3.7.0_155965261/configuration/1342406790169.log. 查看错误日志然后解决打开log文件,看到以下的错误 !SESSION 2012-07-16 10:46:29.992 --------

Hadoop 读写数据流

Hadoop文件读取 1)客户端通过调用FileSystem对象中的open()函数来读取它做需要的数据.FileSystem是HDFS中DistributedFileSystem的一个实例. 2)DistributedFileSystem会通过RPC协议调用NameNode来确定请求文件块所在的位置. 这里需要注意的是,NameNode只会返回所调用文件中开始的几个块而不是全部返回.对于每个返回的块,都包含块所在的DataNode地址.随后,这些返回的DataNode会按照Hadoop定义的集

在.net中序列化读写xml方法的总结

在.net中序列化读写xml方法的总结阅读目录开始最简单的使用XML的方法类型定义与XML结构的映射使用 XmlElement 使用 XmlAttribute 使用 InnerText 重命名节点名称列表和数组的序列化列表和数组的做为数据成员的序列化类型继承与反序列化反序列化的实战演练反序列化的使用总结排除不需要序列化的成员强制指定成员的序列化顺序自定义序列化行为序列化去掉XML命名空间及声明头 XML的使用建议 XML是一种很常见的数据保存方式,我经常用它来保存一些

HDFS中的命令行

HDFS中的命令行本文介绍了HDFS以命令行执行的时候.几个经常使用的命令行的作用和怎样使用~ 1. fs fs是启动命令行动作,该命令用于提供一系列子命令. 使用形式为hadoop fs –cmd <args> 当中,cmd是子命令,args是详细的命令操作. 比如hadoop fs –help 或者说fs是其余子命令的父亲.其余都是在"-cmd"的模式下的! 2. –cat 输出 hadoop fs –cat URI 将路径指定的文件输出到屏幕 3. –copyFro

HBase结合MapReduce批量导入（HDFS中的数据导入到HBase）

HBase结合MapReduce批量导入 1 package hbase; 2 3 import java.text.SimpleDateFormat; 4 import java.util.Date; 5 6 import org.apache.hadoop.conf.Configuration; 7 import org.apache.hadoop.hbase.client.Put; 8 import org.apache.hadoop.hbase.mapreduce.TableOutput

HDFS中JAVA API的使用

转自:http://www.cnblogs.com/liuling/p/2013-6-17-01.html 相关源代码:http://www.cnblogs.com/ggjucheng/archive/2013/02/19/2917020.html HDFS是一个分布式文件系统,既然是文件系统,就可以对其文件进行操作,比如说新建文件.删除文件.读取文件内容等操作.下面记录一下使用JAVA API对HDFS中的文件进行操作的过程. 对分HDFS中的文件操作主要涉及一下几个类: Configurat

Linux启动kettle及linux和windows中kettle往hdfs中写数据(3)

在xmanager中的xshell运行进入图形化界面 1 sh spoon.sh 新建一个job 1.往hdfs中写数据 1)linux中kettle往hdfs中写数据双击hadoop copy files 运行此job 查看数据: 1)windows中kettle往hdfs中写数据 Windows中往power服务器中hdfs写数据日志: 2016/07/28 16:21:14 - Version checker - OK 2016/07/28 16:21:57 - 数据整合工具-作业设计

mysql导入到hdfs中常见问题

mysql导入到hdfs中命令:sqoop import --connect jdbc:mysql://192.168.0.161:3306/angel --username anqi -password anqi --table test2 --fields-terminated-by '\t' -m 1 常见问题1:Warning: /opt/cloudera/parcels/CDH-5.12.0-1.cdh5.12.0.p0.29/bin/../lib/sqoop/../accumulo

C#_在.net中序列化读写xml方法的总结

阅读目录开始最简单的使用XML的方法类型定义与XML结构的映射使用 XmlElement 使用 XmlAttribute 使用 InnerText 重命名节点名称列表和数组的序列化列表和数组的做为数据成员的序列化类型继承与反序列化反序列化的实战演练反序列化的使用总结排除不需要序列化的成员强制指定成员的序列化顺序自定义序列化行为序列化去掉XML命名空间及声明头 XML的使用建议 XML是一种很常见的数据保存方式,我经常用它来保存一些数据,或者是一些配置参数. 使用C#,我

猜你喜欢

十分有用的网址

在线生成举牌照,炫酷头像等等网站:http://tp.388g.com/default.php?cateid=20&catesubid=29&page=1&pagesize=1 ...

tar,grep与正则表达式

1.打包压缩 tar命令: -c 打包,创建压缩包 -x 对打包的文件解包 -t 查看压缩包的详细信息 -v 打包或解包过程的详细信息 -f 对应打包名称 -z 使用gzip压缩归档文件(.tar.g ...

http://www.cnblogs.com/dastan dujavaのblog,布布扣,bubuko.com

损失函数

一.对于回归问题,基本目标是建模条件概率分布p(t|x) 利用最大似然的方式:negative logarithm of the likelihood ???? 这个函数可以作为优化目标,其中的第二项 ...

HDU 2125 Local area network

简单DP,N×M的网格其中有一条边坏掉了,问从起点到终点的放法数有两种方法,一种是DP很好理解 1 //#define LOCAL 2 #include <cstdio> 3 #incl ...

centos 7 安装python3.5.1

系统: [[email protected] ~]# cat /etc/centos-release CentOS Linux release 7.2.1511 (Core) 内核: [[email ...

使用Unity创建塔防游戏（Part1）

How to Create a Tower Defense Game in Unity - Part1 原文作者:Barbara Reichart 文章原译:http://www.cnblogs.co ...

matlab学习第一天

>> x=linspace(-10,10,50); >> y=x.^2.*sin(x); >> plot(x,y,'linewidth',1) >> p ...

Smarty3——内置函数

Table of Content {$var} {$append} {assign} {block} {call} {config_load} {debug} {extends} {for} {for ...

高效快捷简便易用的基于JSP的框架 MVC+ORM框架- YangMVC

开发目的 @copyright 杨同峰保留所有权利本文可以转载,但请保留版权信息本人高校教师,带着一门动态网站设计课程,前面讲HTML+CSS+DIV,后面将JSP+JDBC+Struts+Hi ...

POJ 2115 for求循环次数-数论-（同余方程+扩展欧几里得算法）

题意:给定for循环的初始值,结束值和增量,还有一个模,求最少的循环次数. 分析: 读完题后应该就知道是一个同余的概念,所以就是解一个一元一次同余方程,像上题一样用扩展欧几里得算法.这题的trick点 ...

nginx开机自动启动脚本

# 将nginx设置成服务,并实现开机自动启动 # 说明:作者仅在CentOS7.0上进行了测试,而且没有进行可靠性和稳定性的测试! cp /tmp/nginx /etc/rc.d/init.d/ng ...

是大法官回复他发短信是的飞

www.bxwx.cc/78/78240/13141504.html www.bxwx.cc/78/78240/13141507.html www.bxwx.cc/78/78240/13141515. ...

servlet3.0上传文件

@WebServlet("/upload") @MultipartConfig public class UploadServlet extends HttpServlet{ @O ...

hdu-------(1848)Fibonacci again and again(sg函数版的尼姆博弈)

Fibonacci again and again Time Limit: 1000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Jav ...

Javascript保存网页为图片

//借助于html2canvas库,http://html2canvas.hertzen.com/ //来自:http://blog.csdn.net/zk437092645/article/deta ...

金字塔原理

weex APIs

1.通过这个$vm()上下文访问这些api在脚本的方法 <script> module.exports = { methods: { somemethod: function() { th ...

Scrum 项目5.0

1.团队成员完成自己认领的任务. 2.燃尽图:理解.设计并画出本次Sprint的燃尽图的理想线.参考图6. 3.每日立会更新任务板上任务完成情况.燃尽图的实际线,分析项目进度是否在正轨. 每天的例会结 ...

DELPHI XE5

一直觉得DELPHI7之后,如果写WINDOWS桌面应用,没什么变化. 一直在痛苦,为什么DELPHI提供的控件那么丑陋,透明等什么功能都做的那么差. 一直在郁闷,新装的DELPHI都不带DEMO. ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.021 s.