Hadoop中HDFS读取和写入的工作原理

介绍

HDFS和HBase是Hadoop中两种主要的存储文件系统,两者适用的场景不同,HDFS适用于大文件存储,HBASE适用于大量小文件存储。

本文主要讲解HDFS文件系统中客户端是如何从Hadoop集群中读取和写入数据的,也可以说是block策略。

正文

一 写入数据

  当没有配置机架信息时,所有的机器hadoop都默认在同一个默认的机架下,名为“/default-rack”,这种情况下,任何一台
datanode机器,不管物理上是否属于同一个机架,都会被认为是在同一个机架下,此时,就很容易出现之前提到的增添机架间网络负载的情况。在没有机架信息的情况下,namenode默认将所有的slaves机器全部默认为在/default-rack下

  而当Hadoop集群中配置了机架感知信息以后,hadoop在选择三个datanode时,就会进行相应的判断:

  1.如果上传本机不是一个datanode,而是一个客户端,那么就从所有slave机器中随机选择一台datanode作为第一个块的写入机器(datanode1)。
 注意:而此时如果上传机器本身就是一个datanode(例如mapreduce作业中task通过DFSClient向hdfs写入数据的时候),那么就将该datanode本身作为第一个块写入机器(datanode1)。

  2.随后在datanode1所属的机架以外的另外的机架上,随机的选择一台,作为第二个block的写入datanode机器(datanode2)。

  3.在写第三个block前,先判断是否前两个datanode是否是在同一个机架上,如果是在同一个机架,那么就尝试在另外一个机架上选择第
三个datanode作为写入机器(datanode3)。而如果datanode1和datanode2没有在同一个机架上,则在datanode2所
在的机架上选择一台datanode作为datanode3。

  4.得到3个datanode的列表以后,从namenode返回该列表到DFSClient之前,会在namenode端首先根据该写入客户端跟
datanode列表中每个datanode之间的“距离”由近到远进行一个排序。如果此时DFS写入端不是datanode,则选择datanode列
表中的第一个排在第一位。客户端根据这个顺序有近到远的进行数据块的写入。在此,判断两个datanode之间“距离”的算法就比较关键,hadoop目前实现如下,以两个表示datanode的对象DatanodeInfo(node1,node2)为例:
  a)首先根据node1和node2对象分别得出两个datanode在整个hdfs集群中所处的层次。这里的层次概念需要解释一下:每个datanode在hdfs集群中所处的层次结构字符串是这样描述的,假设hdfs的拓扑结构如下:

  每个datanode都会对应自己在集群中的位置和层次,如node1的位置信息为“/rack1/datanode1”,那么它所处的层次就为2,其余类推。得到两个node的层次后,会沿着每个node所处的拓朴树中的位置向上查找,如“/rack1/datanode1”的上一级就是“
/rack1”,此时两个节点之间的距离加1,两个node分别同上向上查找,直到找到共同的祖先节点位置,此时所得的距离数就用来代表两个节点之间的距
离。所以,如上图所示,node1和node2之间的距离就为4.
  5.当根据“距离”排好序的datanode节点列表返回给DFSClient以后,DFSClient便会创建BlockOutputStream,并将这次block写入pipeline中的第一个节点(最近的节点)。
  6.写完第一个block以后,依次按照datanode列表中的次远的node进行写入,直到最后一个block写入成功,DFSClient返回成功,该block写入操作结束。
  通过以上策略,namenode在选择数据块的写入datanode列表时,就充分考虑到了将block副本分散在不同机架下,并同时尽量的避免了之前描述的过多的网络开销。

补充:Hadoop机架的感知策略

默认情况下,hadoop的机架感知是没有被启用的。所以,在通常情况下,hadoop集群的HDFS在选机器的时候,是随机选择的,也就是说,很
有可能在写数据时,hadoop将第一块数据block1写到了rack1上,然后随机的选择下将block2写入到了rack2下,此时两个rack之
间产生了数据传输的流量,再接下来,在随机的情况下,又将block3重新又写回了rack1,此时,两个rack之间又产生了一次数据流量。在job处
理的数据量非常的大,或者往hadoop推送的数据量非常大的时候,这种情况会造成rack之间的网络流量成倍的上升,成为性能的瓶颈,进而影响作业的性
能以至于整个集群的服务。
    要将hadoop机架感知的功能启用,配置非常简单,在namenode所在机器的hadoop-site.xml配置文件中配置一个选项:

<property>
  <name>topology.script.file.name</name>  <value>/path/to/RackAware.py</value></property>

这个配置选项的value指定为一个可执行程序,通常为一个脚本,该脚本接受一个参数,输出一个值。接受的参数通常为某台datanode机器的
ip地址,而输出的值通常为该ip地址对应的datanode所在的rack,例如”/rack1”。Namenode启动时,会判断该配置选项是否为
空,如果非空,则表示已经用机架感知的配置,此时namenode会根据配置寻找该脚本,并在接收到每一个datanode的heartbeat时,将该
datanode的ip地址作为参数传给该脚本运行,并将得到的输出作为该datanode所属的机架,保存到内存的一个map中。

至于脚本的编写,就需要将真实的网络拓朴和机架信息了解清楚后,通过该脚本能够将机器的ip地址正确的映射到相应的机架上去。一个简单的实现如下:

#!/usr/bin/python  
#-*-coding:UTF-8 -*-  
import sys  
  
rack = {"hadoopnode-176.tj":"rack1",  
        "hadoopnode-178.tj":"rack1",  
        "hadoopnode-179.tj":"rack1",  
        "hadoopnode-180.tj":"rack1",  
        "hadoopnode-186.tj":"rack2",  
        "hadoopnode-187.tj":"rack2",  
        "hadoopnode-188.tj":"rack2",  
        "hadoopnode-190.tj":"rack2",  
        "192.168.1.15":"rack1",  
        "192.168.1.17":"rack1",  
        "192.168.1.18":"rack1",  
        "192.168.1.19":"rack1",  
        "192.168.1.25":"rack2",  
        "192.168.1.26":"rack2",  
        "192.168.1.27":"rack2",  
        "192.168.1.29":"rack2",  
        }  
  
  
if __name__=="__main__":  
    print "/" + rack.get(sys.argv[1],"rack0")

由于没有找到确切的文档说明 到底是主机名还是ip地址会被传入到脚本,所以在脚本中最好兼容主机名和ip地址,如果机房架构比较复杂的话,脚本可以返回如:/dc1/rack1 类似的字符串。

二 读取数据

  我们看一下Hadoop集群配置中如何读取数据。当对某个文件的某个block进行读取的时候,hadoop采取的策略也是一样:

  1.首先得到这个block所在的datanode的列表,有几个副本数该列表就有几个datanode。

  2.根据列表中datanode距离读取端的距离进行从小到大的排序:
  a)首先查找本地是否存在该block的副本,如果存在,则将本地datanode作为第一个读取该block的datanode
  b)然后查找本地的同一个rack下是否有保存了该block副本的datanode
  c)最后如果都没有找到,或者读取数据的node本身不是datanode节点,则返回datanode列表的一个随机顺序。

时间: 2024-07-30 01:51:17

Hadoop中HDFS读取和写入的工作原理的相关文章

hadoop中HDFS的NameNode原理

1. hadoop中HDFS的NameNode原理 1.1. 组成 包括HDFS(分布式文件系统),YARN(分布式资源调度系统),MapReduce(分布式计算系统),等等. 1.2. HDFS架构原理 比如现在要上传一个1T的大文件,提交给HDFS的Active NameNode(用以存放文件目录树,权限设置,副本数设置等),它会在指定目录下创建一个新的文件对象,比如access_20180101.log 至于具体数据,它会将它拆分后进行分布式存储,分散在各个DataNode节点,且默认都会

HDFS 读取、写入、遍历目录获取文件全路径

1.从HDFS中读取数据 Configuration conf = getConf(); Path path = new Path(pathstr); FileSystem fs = FileSystem.get(conf); FSDataInputStream fsin= fs.open(path ); BufferedReader br =null; String line ; try{ br = new BufferedReader(new InputStreamReader(fsin))

Hadoop源代码分析:HDFS读取和写入数据流控制(DataTransferThrottler类别)

DataTransferThrottler类别Datanode读取和写入数据时控制传输数据速率.这个类是线程安全的,它可以由多个线程共享. 用途是构建DataTransferThrottler对象,并设置期限period和带宽bandwidthPerSec,际读写前调用DataTransferThrottler.throttle()方法.假设I/O的速率相对给定的带宽太快,则该方法会将当前线程wait. 两个构造函数 双參构造函数,能够设置周期period和带宽bandwidthPerSec.

hdfs的伪分布式的工作原理

[简介] 1.hdfs架构 hdfs伪分布式架构只需要有三个部分即可,NameNode是老大,DataNode是小弟,Secondary NameNode是助理. 客户端Client跟NameNode通信(RPC通信机制,后面会介绍),Secondary NameNode负责数据的同步. 2.元数据的存储细节 NameNode的元数据是存放在内存当中的. 数据解读:有一个文件/test/a.log,保存了3个副本,一共被切分成了两块,第一块分别存放在了那几个地方,第二块存放在了那几个地方. 客户

python中的函数、生成器的工作原理

1.python中函数的工作原理 def foo(): bar() def bar(): pass python的解释器,也就是python.exe(c编写)会用PyEval_EvalFramEx(c函数)运行foo()函数 首先会创建一个栈帧(stack Frame),在栈帧对象的上下文里面去运行这个字节码. import dis print(dis.dis(foo)) #打印字节码 可以尝试着去打印foo的字节码: 关于字节码的解释: LOAD_GLOBAL:首先导入bar这个函数 CALL

hadoop[4]-hdfs分布式文件系统的基本工作机制

一.Namenode 和 Datanode HDFS采用master/slave架构.一个HDFS集群是由一个Namenode和一定数目的Datanodes组成.Namenode是一个中心服务器,负责管理文件系统的名字空间(namespace)以及客户端对文件的访问.集群中的Datanode一般是一个节点一个,负责管理它所在节点上的存储.HDFS暴露了文件系统的名字空间,用户能够以文件的形式在上面存储数据.从内部看,一个文件其实被分成一个或多个数据块,这些块存储在一组Datanode上.Name

C#中excel读取和写入

1.方法一:采用OleDB读取EXCEL文件: 把EXCEL文件当做一个数据源来进行数据的读取操作,实例如下: public DataSet ExcelToDS(string Path) { string strConn = "Provider=Microsoft.Jet.OLEDB.4.0;" +"Data Source="+ Path +";"+"Extended Properties=Excel 8.0;"; OleDb

ASP.NET中如何读取和写入注册表

直接给源码: 读取注册表内容: 1 RegistryKey regkey=Registry.LocalMachine.OpenSubKey(@"SOFTWARE\Microsoft\Windows\CurrentVersion\Run"); 2 string[] n=regkey.GetValueNames(); 3 for(int i=0;i<n.Length;i++) 4 { 5 Response.Write(n[i]+": "+regkey.GetVal

HADOOP中HDFS基准测试

hdfs 基准测试: 磁盘读写性能测试 hadoop jar ./hadoop-mapreduce-client-jobclient-2.7.2.3.jar TestDFSIO -read -nrFiles 10 -fileSize 10MB hadoop jar ./hadoop-mapreduce-client-jobclient-2.7.2.3.jar TestDFSIO -write -nrFiles 10 -fileSize 10MB dev环境:read: 19/06/28 08:1