好程序员大数据学习路线分享HDFS读流程

1.客户端或者用户通过调用FileSystem对象的Open()方法打开需要读取的文件，这时就是HDSF分布式系统所获取的一个对象
　　2.FileSystem通过远程协议调用NameNode确定文件的前几个Block的位置，对于每一个block,NameNode返回一个含有Block的元数据信息，接下来DataNode按照上面定义的距离(offSet偏移量)进行排序,如果Client本身即是一个DataNode,那么就会优先从本地DataNode节点读取数据. HDFS完成上面的工作之后返回一个FSDatalnputStream给客户端,让其从FSDatalnputStream中读取。FSDatalnputStream包装了一个类DFSInputStream,用来管理DataNode和NameNode的I/O操作。
　　3.NameNode向客户端返回一个包含了数据信息的地址,客户端根据地址创建一个FSDDatalnputStream的对象开始进行数据的读取
　　4.FSDatalnputStream根据开始存的前几个Block的DataNode地址，连接到最近DataNode上对数据开始从头读取，客户端会反复调用read()方法，以流的形式读取DataNode这中的数据
　　5.当读取到Block的结尾的时候，FSDatalnputStream会关闭当前DataNode的连接然后查找能否读取下一个Block的DataNode位置信息,此时给客户端产生的感觉就是数据是连续读取的，也就说在读取的时候开始查找下一个块所在的地址。读取完成时需要使用close()方法关闭FSDatalnputStream
　　HDFS写流程：
　　1.Client通过调用FileSystem类的Create()方法请求创建文件
　　2.FileSystem通过对NameNode发出远程请求,在NameNode里面创建一个新的文件,但是此时并不关联任何块,NameNode进行很多检查来保证不存在要创建文件已经在系统中,同时检查是否有相当权限来创建文件，如果这些都检查完了,那么NamdNode会记录下这个新文件的信息。FileSystem返回一个FSDatalnputStream给客户端用来写入数据，FSDatalnputStream将包装一个DFsOutputStream用于对DataNode和NameNode的通信,一旦文件创建失败,会给客户端返回一个l0Exception表示文件创建失败并停止任务
　　3.客户端开始写数据FSDatalnputStream把要写的数据分成包的形式将其写入到中间队列中，其中的数据有DataStramer来读取,DataStreamer的职责就是让NameNode分配一个新的块通过查找对应DataNode来存数据,来存储的数据会被备份出一个副本,存储到其他节点完成数据写入即可
　　4.FSDatalnputStream维护了一个内部关于packets的队列,里面存放着等待被DataNode确认的信息,一旦数据信息写入DataNode成功后,就会从队列中移除
　　5.当数据完成写入之后客户会调用close方法,通过NameNode完成写入之前通过一个方法flush将残留数据一起写进去。和NameNode确定写入的位置信息，并返回成功状态。

原文地址：https://blog.51cto.com/14479068/2433353

时间： 2024-09-29 18:49:32

好程序员大数据学习路线分享HDFS读流程的相关文章

好程序员大数据学习路线分享hive的运行方式

好程序员大数据学习路线分享hive的运行方式,hive的属性设置: 1.在cli端设置 (只针对当前的session) 3.在java代码中设置 (当前连接) 2.在配置文件中设置 (所有session有效) 设置属性的优先级依次降低. cli端只能设置非hive启动需要的属性.(log属性,元数据连接属性) 查找所有属性: hive>set; 查看当前属性的值:通常是hadoop hive> set -v; 模糊查找属性: hive -S -e "set" | grep

好程序员大数据学习路线分享高阶函数

好程序员大数据学习路线分享高阶函数,我们通常将可以做为参数传递到方法中的表达式叫做函数高阶函数包含:作为值的函数.匿名函数.闭包.柯里化等等. 定义函数时格式:val 变量名 =?(输入参数类型和个数)?=>?函数实现和返回值类型和个数 "="表示将函数赋给一个变量 "=>"左面表示输入参数名称.类型和个数,右边表示函数的实现和返回值类型和参数个数作为值的函数定义函数 scala> val func = (x:Int) => x * x

好程序员大数据学习路线分享MAPREDUCE

好程序员大数据学习路线分享MAPREDUCE,需求:统计大量的文本文件中的单词出现的次数 1)整个运算需要分阶段阶段一:并行局部运算阶段二 :汇总处理,不同的阶段需要开发不同的程序 2)阶段之间的调用 3)业务程序(task程序)如何并发到集群并启动程序 4)如何监控task程序的运行状态,如何处理异常 ::这些问题是开发分布式程序都会面临的问题,完全可以封装成框架::MR 的结构一个完整的MapReduce运行时有三类实例进程: 1)MRAppMaster : 负责整个程序的过程调度和状

好程序员大数据学习路线分享Scala分支和循环

好程序员大数据学习路线分享Scala分支和循环3.3. 条件表达式表达式:一个具有执行结果的代码块.结果是具体的值或者() 表达式的思考方式:以表达式为中心的编程思想 1.表达式和语句的区别:表达式有返回值,语句被执行.表达式一般是一个语句块,执行后,返回一个值 2.不使用return语句,最后一个表达式即返回值 if/else表达式有值,这个值就是跟在if或者else之后的表达式的值 object ConditionDemo {def main(args: Array[String]){var

好程序员大数据学习路线分享Scala系列之泛型

好程序员大数据学习路线分享Scala系列之泛型,带有一个或多个类型参数的类是泛型的. 泛型类的定义: //带有类型参数A的类定义class Stack[A] {private var elements: List[A] = Nil//泛型方法def push(x: A) { elements = x :: elements }def peek: A = elements.headdef pop(): A = {val currentTop = peekelements = elements.ta

好程序员大数据学习路线分享Scala系列之集合操作函数

好程序员大数据学习路线继续为大家分享Scala系列之集合操作函数4.6 集合的重要函数4.6.1sum/max/min/count在序列中查找最大或最小值是一个极常见的需求,如下:val numbers = Seq(11, 2, 5, 1, 6, 3, 9) numbers.max //11 numbers.min //1 更高级的例子,其中包含一个书的序列case class Book(title: String, pages: Int) val books = Seq( Book("Futu

好程序员大数据学习路线分享Hadoop阶段的高可用配置

大数据学习路线分享Hadoop阶段的高可用配置,什么是Hadoop的HA机制 Ha机制即Hadoop的高可用(7*24小时不中断服务) 正式引入HA机制是从hadoop2.0开始,之前的版本中没有HA机制 hadoop-ha严格来说应该分成各个组件的HA机制--HDFS的HA.YARN的HA HDFS的HA机制详解HDFS 的HA主要是通过双namenode协调工作实现双namenode协调工作的要点:A.元数据管理方式需要改变: 内存中各自保存一份元数据 Edits日志只能有一份,只有Act

好程序员大数据学习路线分享scala单列和伴生对象

scala单例 object SingletonDemo { ??def main(args: Array[String]): Unit = { ????val s = SessionFactory ????println(s.getSession) ????println(s.getSession.size) ?//.size得到几个session对象 ??} } object SessionFactory{ ??println("SessionFactory 被执行了") ?? ?

好程序员大数据学习路线Hadoop学习干货分享

好程序员大数据学习路线Hadoop学习干货分享,Apache Hadoop 为可靠的,可扩展的分布式计算开发开源软件.Apache Hadoop软件库是一个框架,它允许使用简单的编程模型跨计算机群集分布式处理大型数据集(海量的数据).包括这些模块: Hadoop Common:支持其他Hadoop模块的常用工具. Hadoop分布式文件系统(HDFS?):一种分布式文件系统,可提供对应用程序数据的高吞吐量访问. Hadoop YARN:作业调度和集群资源管理的框架. Hadoop MapRedu

猜你喜欢

IDEA常用插件

IDEA插件仓库 IntelliJ IDEA Plugins 一.Maven Helper 我一般用这款插件来查看maven的依赖树.在不使用此插件的情况下,要想查看maven的依赖树就要使用Mave ...

如何在嵌入式产品中应用键值存储数据库

[ 声明:版权所有,欢迎转载,请勿用于商业用途. 联系信箱:[email protected]] 1.背景随着互联网快速发展及大数据时代的到来,NoSQL数据库以其强大的可伸缩性.高效性.实时性等特 ...

原生JS投票特效

效果:http://hovertree.com/texiao/js/24/ 效果图: 代码如下: <!DOCTYPE html> <html lang="en"& ...

【BZOJ-2229】最小割最小割树（最大流+分治）

2229: [Zjoi2011]最小割 Time Limit: 10 Sec Memory Limit: 259 MBSubmit: 1565 Solved: 560[Submit][Status ...

DreamHouse项目（基于ARM与ZIGBEE技术的智能家居）之项目展示

这是本人做的一次有关智能家居的项目,仅是用来参加比赛的!或者是我用来练手的吧!大概花费了我近2个月的时间来完成他,平台是建立在博创S3C2410的嵌入式的箱子上的,我觉得我唯一没有足够自信说是自己写的 ...

Makefile 实例实践

本文为原创文章,转帖需指明该文链接目录结构如下: comm/inc/apue.h comm/errorhandler.c atexit.c Makefile 文件内容如下: apue.h 1 #in ...

专门用来显示大量数据的视图:AdapterView(1)

AdapterView是一种用来展示大量数据的视图对象,AdapterView的内容一般是包含相同格式资源的控件,查阅Android文档知类的定义: 从上可知AdapterView直接继承ViewGr ...

C#控件一览表

1 C#控件一览表 2 1.窗体 3 1.常用属性 4 (1)Name属性:用来获取或设置窗体的名称,在应用程序中可通过Name属性来引用窗体. 5 (2) WindowState属性: 用来获取或设 ...

IOS开发技巧--Git的使用

Git介绍 1. 集中式 2. 分布式 SSH密钥生成存在 https或 ssh 协议 https://git.oschina.net/ericbluce/hcxy112.git [email pr ...

网络编程~C++实现局域网通信

最近在学网络编程,学习了UDP的通信原理.写了基于UDP的服务端和客户端,可以实现局域网直接的通信,可以实现一个服务端,对多个客户端,试验过两个客户端的,两个客户端可以接收到服务端的消息,两个客户端的 ...

angularjs 点击事件与动态追加

<!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title> ...

JAVA_SE基础——45.接口关系下的多态

接口关系下的多态和继承关系下的多态相差无几,应该更简单些~ 多态: 父类的引用类型变量指向了子类的对象或者是接口类型的引用类型变量指向了接口实现类的对象. 实现关系下的多态: 接口变量 = ...

Jquery plupload上传笔记（修改版）

找一个好的上传插件不容易啊,最近看好一个上传插件,查了些网上质料,自己做了些改动,记录下来,来彰显自己曾经屌丝过,这插件还不错,支持多个上传和预览首先引用 <link href="~ ...

目前为目最全的CURL中文说明了,学PHP的要好好掌握.有很多的参数.大部份都很有用.真正掌握了它和正则,一定就是个采集高手了.PHP中的CURL函数库(Client URL Library Func ...

Array数组方法的总结

添加元素: 1. push(arg1,arg2,arg3....) 向数组的尾部添加元素,返回值是数组的长度. 2.unshift(arg1,arg2,arg3....) 向数组的头部添加元素,返回 ...

php 缓存使用监控测试代码

php 缓存使用监控测试代码. 将以下代码存在PHP WEB网站下面,然后通过IE浏览器进行访问. #cat ocpcache.php <?php /* * Fetch configuratio ...

setlocale 与 mbstowcs 的问题

C++的字符串转换函数mbstowcs使用时容易产生bug... rapidxml_utils.hpp 的file(const char*filename)函数内会异常宕机... 需要在函数最开始添加 ...

python笔记之列表函数和方法使用举例

在学习列表之前先了解了raw_input和input的区别:(仅适用于版本2,版本3中raw_input和input合并,没有raw_input) input的语法为:input("str& ...

Why you should use async tasks in .NET 4.5 and Entity Framework 6

Improve response times and handle more users with parallel processing Building a web application usi ...

sql 查询 between and 和 >= <= 比较

好久没有更新博客了,积累了很多问题没有得到解决,自己也在纠结有些东西需不需要花时间研究一下,认真想了想,不管怎么样,不能停止更新博客,继续保持一周至少一篇的习惯,不能放弃. 今天说的问题比较简单,就是 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.023 s.