HDFS读写流程

读程图：

1、客户端发送请求，调用DistributedFileSystem API的open方法发送请求到Namenode，获得block的位置信息，因为真正的block是存在Datanode节点上的，而namenode里存放了block位置信息的元数据。

2、Namenode返回所有block的位置信息，并将这些信息返回给客户端。

3、客户端拿到block的位置信息后调用FSDataInputStream API的read方法并行的读取block信息，图中4和5流程是并发的，block默认有3个副本，所以每一个block只需要从一个副本读取就可以。

4、datanode返回给客户端。

写流程：

1、客户端发送请求，调用DistributedFileSystem API的create方法去请求namenode，并告诉namenode上传文件的文件名、文件大小、文件拥有者。

2、namenode根据以上信息算出文件需要切成多少块block，以及block要存放在哪个datanode上，并将这些信息返回给客户端。

3、客户端调用FSDataInputStream API的write方法首先将其中一个block写在datanode上，每一个block默认都有3个副本，并不是由客户端分别往3个datanode上写3份，而是由

已经上传了block的datanode产生新的线程，由这个namenode按照放置副本规则往其它datanode写副本，这样的优势就是快。

4、写完后返回给客户端一个信息，然后客户端在将信息反馈给namenode。

5、需要注意的是上传文件的拥有者就是客户端上传文件的用户名，举个例子用windows客户端上传文件，那么这个文件的拥有者就是administrator，和linux上的系统用户名不是一样的。

时间： 2024-08-06 18:43:34

HDFS读写流程的相关文章

大数据系列文章-Hadoop的HDFS读写流程（二）

在介绍HDFS读写流程时,先介绍下Block副本放置策略. Block副本放置策略第一个副本:放置在上传文件的DataNode:如果是集群外提交,则随机挑选一台磁盘不太满,CPU不太忙的节点. 第二个副本:放置在与第一个副本不同的机架的节点上. 第三个副本:与第二个副本相同机架的节点. 更多副本:随机节点. HDFS写流程客户端发请求给NameNode,我想保存一个文件A,这时候在NameNode会有一个标识,标识为A_copy(文件不可用). 根据副本放置策略,返回三个副本的可放置位置列表

HDFS读写流程简介

HDFS写流程: 1.初始化FileSystem,客户端调用create()来创建文件 2.FileSystem用RPC调用元数据节点,在文件系统的命名空间中创建一个新的文件,元数据节点首先确定文件原来不存在,并且客户端有创建文件的权限,然后创建新文件. 3.FileSystem返回DFSOutputStream,客户端用于写数据,客户端开始写入数据. 4.DFSOutputStream将数据分成块,写入data queue.data queue由Data Streamer读取,并通知元数据节点

Hadoop之HDFS读写流程

hadoophdfs 1. HDFS写流程 2. HDFS写流程 1. HDFS写流程 HDFS写流程副本存放策略: 上传的数据块后,触发一个新的线程,进行存放. 第一个副本:与client最近的机器(基于性能考虑) 第二个副本:跨机器存放该副本(考虑数据安全性) 第三个副本:与第一个,第二个副本都不在同一个机架上(考虑数据安全性) 2. HDFS写流程 HDFS读流程原文地址:https://www.cnblogs.com/linyufeng/p/10989433.html

Hadoop2.6.0学习笔记（七）HDFS读写流程

鲁春利的工作笔记,谁说程序员不能有文艺范? HDFS读文件解析 HDFS写文件解析

HDFS（一）架构及文件读写流程

Hadoop 中有三大组件:HDFS.MapReduce.YARN,HDFS 负责大文件存储的问题,MapReduce 负责大数据计算,而 YARN 负责资源的调度,接下来的文章我会一一介绍这几个组件.今天我们先来聊聊 HDFS 的架构及文件的读写流程. 总体架构 HDFS 设计的目的是为了存储大数据集的文件,因此一台服务器是应付不了的,我们需要一个集群来实现这个目标.当用户需要存储一个文件时,HDFS 会将这个文件切分为一个个小的数据块(在 2.x 的版本中,每个数据块默认大小为 128M),

HDFS读写数据块--${dfs.data.dir}选择策略

最近工作需要,看了HDFS读写数据块这部分.不过可能跟网上大部分帖子不一样,本文主要写了${dfs.data.dir}的选择策略,也就是block在DataNode上的放置策略.我主要是从我们工作需要的角度来读这部分代码的. 1 hdfs-site.xml 2 <property> 3 <name>dfs.data.dir</name> 4 <value>/mnt/datadir1/data,/mnt/datadir2/data,/mnt/datadir3/

小记--------hbase数据库读写流程

hbase读写流程读过程 client先从缓存中定位region位置,如果缓存中没有region位置,则从zookeeper的-ROOT-表,获取-ROOT-所在regionserver位置通过查询-ROOT-的region服务器获取含有.META.表所在regionserver地址 Client会将保存着regionserver位置信息的元数据表.META.进行缓存,然后在表中确定待检索rowkey所在regionserver信息. Client会向在.META.表中确定的regionse

Ceph源码解析：读写流程

一.OSD模块简介 1.1 消息封装:在OSD上发送和接收信息. cluster_messenger -与其它OSDs和monitors沟通 client_messenger -与客户端沟通 1.2 消息调度: Dispatcher类,主要负责消息分类 1.3 工作队列: 1.3.1 OpWQ: 处理ops(从客户端)和sub ops(从其他的OSD).运行在op_tp线程池. 1.3.2 PeeringWQ: 处理peering任务,运行在op_tp线程池. 1.3.3 CommandWQ:处

HBase 数据读写流程

HBase 数据读写流程 2016-10-18 杜亦舒读数据 HBase的表是按行拆分为一个个 region 块儿,这些块儿被放置在各个 regionserver 中假设现在想在用户表中获取 row key 为 row0001 的用户信息要想取得这条数据,就需要先找到含有此条记录的 region HBase 是如何定位到具体 regionserver 中的具体 region 的呢? HBase 中有一个内置的 hbase:meta 表,其中记录了所有表的所有 region 的详细信息例如

猜你喜欢

EJB对象的部署及客户端调用简单示例

一,EJB对象的写法及部署 1,新建一个EJB Project,在包里加入接口及实现类: 实现类通常以Bean结尾,并且通过注解方式指定EJB类型: 之后,部署到JBoss服务器上. 二,客户端调用 ...

同行代码评审过程中的实践经验

声明:该文经我翻译后首次发表在伯乐在线上,不论什么形式的转载都请标明原处. 数百万年前,猿从树上下来,进化出了对生拇指,终于.变成了人类. 我们以相似的眼光来看下强制性代码评审(Code Review ...

Docker安装及镜像管理

1.docker简介容器虚拟化,比传统虚拟化轻量 2013年出现,发展非常迅猛 Redhat在6.5版本开始支持docker 使用GO语言开发,基于apache2.0协议开源软件,项目代码在git ...

TortoiseSVN与VisualSVN Server搭建SVN版本控制系统【转】

转自:http://www.cnblogs.com/xing901022/p/4399382.html 本片主要介绍如何搭建SVN版本控制系统,主要使用工具: 1 客户端:TortoiseSVN (小 ...

CodeIgniter辅助函数

辅助函数是帮助我们完成特定任务的函数.每个辅助函数文件仅仅是一些函数的集合.例如,URL Helpers 可以帮助我们创建链接,Form Helpers 可以帮助我们创建表单,Text Helpers ...

[Django1.6]south于django1.6使用

south在django1.6中的使用 django1.7中已经支持数据合并了,所以仅仅能在django1.4 1.5 1.6的版本号中使用south. south的主要作用就是做数据的合并,当我们在 ...

Unity 音乐播放全局类

今天晚了LOL, 发现里面的声音系统做得很不错,于是最近就写了一份反正以后也用的到,2D音乐全局播放. 项目跟PoolManager对象池插件结合了. 解决的问题: 1. 已经播放的声音,可以马上暂停 ...

Mac 如何恢复出厂设置

首先将电脑关机然后按电源键启动启动的时候电脑会出现白色什么都没有的界面这时按住 option(alt)键会出现磁盘选择界面然后选择一个叫 Reocorvry10.X.X的硬盘点击那个硬盘按照上面的指示 ...

ViewPager + Fragment 制作类似底部导航栏

1. 四个类似的Frament布局 tab_main_fragment.xml <LinearLayout xmlns:android="http://schemas.android. ...

SSRS 2012 指标（Indicator）

SSRS 2012 指标(Indicator) 指标就是迷你版的仪表,可通过表格类型的结构,一次显示多个指标.和对于企业用来呈现关键绩效指标来说是非常有用的. 步骤1: 线设计以分店名称为组的销售报表 ...

面试题31：连续子数组的最大和

题目描述输入一个整型数组,数组里有正数也有负数.数组中一个或连续的多个整数组成一个子数组.求所有子数组的和的最大值.要求时间复杂度为O(n).例如输入的数组为{1,-2,3,10,-4,7,2,-5 ...

git的版本回退探索

简介今天改完代码匆忙提交,上线发现有问题,那怎么办?废话,赶紧回滚,那怎么回滚,开始用git reset [--soft | --mixed | --hard 命令,但这命令真的能达到我预期的效果吗 ...

Windows6.1-KB2731771-x64.msu 提示此更新不适用于您的计算机 ie10 ie11 安装失败

1,C盘新建update文件夹,把Windows6.1-KB2731771-x64.msu拷贝到此文件夹下 2,cmd下输入:expand –F:* C:\update\Windows6.1-KB27 ...

achartengine-1.0.0.jar 图表配置用法

基础知识: CategorySeries XYSeriesRenderer XYMultipleSeriesDataset :构造数据 XYMultipleSeriesRenderer :构造渲染器 ...

构造函数与各种继承方法特点

---使用new运算符调用一个函数时,总是返回一个对象 1.当使用new调用任何函数时,它会发生如下事情: 2.后台自动创建一个“空”对象,通过this引用该对象:var this={};//伪代码 ...

Angularjs做的一个小页面

<!DOCTYPE html><html lang="en" ng-app="todolist"> <head> <m ...

虚拟机中CentOS系统添加新磁盘

查看当前系统分区命令:fdisk –l 运行虚拟机时添加了磁盘,系统不能识别到新的磁盘即sdb,需要重启虚拟机:shutdown -r now 新磁盘进行分区并格式化命令:fdisk /dev/s ...

HDU——Cover——————【技巧】

Cover Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/65536 K (Java/Others)Total Submi ...

oracle中scott/tiger、sys、SYSDBA、system都是什么用

oracle中scott/tiger.sys.SYSDBA.system都是什么用点我,点我~

c# c++ oc java || mac android ios

Unity 使用C/C++ 跨平台终极解决方案(PC,iOS,Android,以及支持C/C++的平台) http://blog.csdn.net/fg5823820/article/details/ ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.023 s.