大数据系列文章-Hadoop的HDFS读写流程（二）

在介绍HDFS读写流程时，先介绍下Block副本放置策略。

Block副本放置策略

第一个副本：放置在上传文件的DataNode；如果是集群外提交，则随机挑选一台磁盘不太满，CPU不太忙的节点。
第二个副本：放置在与第一个副本不同的机架的节点上。
第三个副本：与第二个副本相同机架的节点。
更多副本：随机节点。

HDFS写流程

客户端发请求给NameNode，我想保存一个文件A，这时候在NameNode会有一个标识，标识为A_copy（文件不可用）。
根据副本放置策略，返回三个副本的可放置位置列表，且默认为sort排好顺序的。
客户端主动去和离自己最近的DataNode连接（暂且叫DN1）,然后DN1后续的DN2进行连接，DN2在和DN3进行连接。（串联方式Pipeline）
客户端读取源文件，对该Block进行更小的切割，
- 第一次：传递第一个Block中的第一个小包给DN1。
- 第二次：传递第一个Block中的第二个小包给DN1，与此同时，DN1中的第一个小包传递给DN2。
- 第三次：传递第一个Block中的第三个小包给DN1，与此同时，DN1中的第二个小包传递给DN2，DN2传递第一个小包给DN3.
- 依次类推

（Block切割更小的小包，这里这么设计的好处是时间不重叠。如果不切，一次性传递例如64M，当传递DN1时，等待，传递DN2时，继续等待，传递DN3时，还在等，造成时间浪费。另外的一个好处时，如果增加节点，时间影响不大）

最后通过DataNode与NameNode心跳，通知是否文件彻底传递完毕，补全NameNode中元数据的位置信息。

HDFS读流程

客户端发请求给NameNode，NameNode将这个文件的元数据找到，告知给客户端（例如文件A，被切割为5个Block,元文件会纪录Block1：DN1,DN2,DN3,Block2：DN1,DN4,DN5等等依次类推）
客户端直接向DataNode请求Block数据（遵循距离优先）
当把所有的Block下载回本地后，进行验证每个Block元信息的MD5。如果每个Block都是正确的，没有被破坏，开始进行拼接，最终文件就被还原回来了。

HDFS文件权限

与Linux文件权限类似
- r:read;w:write;x:execute
- 权限x对应文件忽略，对于文件夹表示是否允许访问其内容
如果Linux系统用户zhangyongli使用Hadoop命名创建一个文件，那么这个文件在HDFS中owner就是zhangyongli
HDFS的权限目的，阻止好人做错事，而不是阻止坏人做坏事。HDFS相信，你告诉我你是谁，我就认为你是谁。

解释：

阻止好人做错事：例如AB两个用户，A用户创建了一个X文件，B用户创建了一个Y文件，B用户删除不了A用户的文件X。
阻止坏人做坏事：如果AB两个用户中的某个坏人，装了一台全新的linux系统，也创建AB用户，补全Hadoop部署文件内容，客户端程序，然后用新系统的A向NameNode去删除X文件，由于NameNode是被动受信，所以未来需要集成kerberos来防止这种操作。
（转发请注明出处：http://www.cnblogs.com/zhangyongli2011/ 如发现有错，请留言，谢谢）

原文地址：https://www.cnblogs.com/zhangyongli2011/p/10897766.html

时间： 2024-08-03 17:05:01

大数据系列文章-Hadoop的HDFS读写流程（二）的相关文章

大数据系列文章汇总 - 更新到15篇

转自:http://blog.csdn.net/matthewei6/article/details/50615816 大数据(一) - hadoop生态系统及版本演化大数据(二) - HDFS大数据(三) - YARN大数据(四) - MapReduce大数据(五) - HBase大数据(六) - ZooKeeper大数据(七) - Flume大数据(八) - Sqoop大数据(九) - Hive大数据(十) - Pig大数据(十一) - Mahout大数据(十二) - Oozie大数据(十三

大数据系列之Hadoop框架

Hadoop框架中,有很多优秀的工具,帮助我们解决工作中的问题. Hadoop的位置从上图可以看出,越往右,实时性越高,越往上,涉及到算法等越多. 越往上,越往右就越火-- Hadoop框架中一些简介 HDFS HDFS,(Hadoop Distributed File System) hadoop分布式文件系统.在Google开源有关DFS的论文后,由一位大牛开发而成.HDFS的建立在集群之上,适合PB级大量数据的存储,扩展性强,容错性高.它也是Hadoop集群的基础,大部分内容都存在了HD

大数据技术之Hadoop（HDFS）

第1章 HDFS概述 1.1 HDFS产出背景及定义 1.2 HDFS优缺点 1.3 HDFS组成架构 1.4 HDFS文件块大小(面试重点) 第2章 HDFS的Shell操作(开发重点) 1．基本语法 bin/hadoop fs 具体命令 OR bin/hdfs dfs 具体命令 dfs是fs的实现类. 2．命令大全 [[email protected] hadoop-2.7.2]$ bin/hadoop fs ? [-appendToFile <localsrc> ... <dst&

Hadoop之HDFS读写流程

hadoophdfs 1. HDFS写流程 2. HDFS写流程 1. HDFS写流程 HDFS写流程副本存放策略: 上传的数据块后,触发一个新的线程,进行存放. 第一个副本:与client最近的机器(基于性能考虑) 第二个副本:跨机器存放该副本(考虑数据安全性) 第三个副本:与第一个,第二个副本都不在同一个机架上(考虑数据安全性) 2. HDFS写流程 HDFS读流程原文地址:https://www.cnblogs.com/linyufeng/p/10989433.html

大数据系列之Hadoop分布式集群部署

本节目的:搭建Hadoop分布式集群环境环境准备 LZ用OS X系统 ,安装两台Linux虚拟机,Linux系统用的是CentOS6.5:Master Ip:10.211.55.3 ,Slave Ip:10.211.55.4 各虚拟机环境配置好Jdk1.8(1.7+即可) 资料准备 hadoop-2.7.3.tar.gz 虚拟机配置步骤以下操作都在两台虚拟机 root用户下操作,切换至root用户命令配置Master hostname 为Master ; vi /etc/sysconfi

【大数据系列】hadoop单节点安装官方文档翻译

Hadoop: Setting up a Single Node Cluster. HADOOP:建立单节点集群 Purpose Prerequisites Supported Platforms Required Software Installing Software Download Prepare to Start the Hadoop Cluster Standalone Operation Pseudo-Distributed Operation Configuration Setu

【大数据系列】hadoop上传文件报错_COPYING_ could only be replicated to 0 nodes

使用hadoop上传文件 hdfs dfs -put XXX 17/12/08 17:00:39 WARN hdfs.DFSClient: DataStreamer Exception org.apache.hadoop.ipc.RemoteException(java.io.IOException): File /user/sanglp/hadoop-2.7.4.tar.gz._COPYING_ could only be replicated to 0 nodes instead of m

大数据系列之分布式数据库HBase-1.2.4+Zookeeper 安装及增删改查实践

之前介绍过关于HBase 0.9.8版本的部署及使用,本篇介绍下最新版本HBase1.2.4的部署及使用,有部分区别,详见如下: 1. 环境准备: 1.需要在Hadoop[hadoop-2.7.3] 启动正常情况下安装,hadoop安装可参考LZ的文章大数据系列之Hadoop分布式集群部署 2. 资料包 zookeeper-3.4.9.tar.gz,hbase-1.2.4-bin.tar.gz 2. 安装步骤: 1.安装zookeeper 1.解压zookeeper-3.4.9.tar.gz

大数据系列之数据仓库Hive安装

Hive主要分为以下几个部分 ?户接口1.包括CLI,JDBC/ODBC,WebUI元数据存储(metastore)1.默认存储在?带的数据库derby中,线上使?时?般换为MySQL驱动器(Driver)1.解释器.编译器.优化器.执?器Hadoop1.?MapReduce 进?计算,?HDFS 进?存储前提部分:Hive的安装需要在Hadoop已经成功安装且成功启动的基础上进行安装.若没有安装请移步至大数据系列之Hadoop分布式集群部署. 使用包: apache-hive-2.1.1-b