Hadoop日记Day5---HDFS深入浅析

本文用到了查看hadoop源码，关于hadoop源码导入Eclipse方式见第一期

一、HDFS的背景介绍

　　随着数据量越来越大，在一个操作系统管辖的范围存不下了，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，迫切需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统。

　　学术一点的定义就是：分布式文件系统是一种允许文件通过网络在多台主机上分享的文件的系统，可让多机器上的多用户分享文件和存储空间。分布式文件管理系统很多，hdfsHDFS 只是其中一种。适用于一次写入、多次查询的情况，不支持并发写情况，小文件不合适。因为小文件也占用一个块，小文件越多（1000个1k文件）块越多，NameNode压力越大。

二、 HDFS的基本概念

　　我们通过hadoop shell上传的文件是存放在DataNode的block中，通过linux shell是看不到文件的，只能看到block。可以一句话描述HDFS：把客户端的大文件存放在很多节点的数据块中。在这里，出现了三个关键词：文件、节点、数据块。HDFS就是围绕着这三个关键词设计的，我们在学习的时候也要紧抓住这三个关键词来学习。

三、 HDFS的基本结构之NameNode

1. 作用

　　NameNode的作用是管理文件目录结构，接受用户的操作请求,是管理数据节点的。名字节点维护两套数据，一套是文件目录与数据块之间的关系，另一套是数据块与节点之间的关系。前一套数据是静态的，是存放在磁盘上的，通过fsimage和edits文件来维护；后一套数据是动态的，不持久放到到磁盘的，每当集群启动的时候，会自动建立这些信息，所以一般都放在内存中。

　　所以他是整个文件系统的管理节点。它维护着整个文件系统的文件目录树，文件/目录的元信息和每个文件对应的数据块列表。接收用户的操作请求。

文件包括：

①fsimage（文件系统镜像）:元数据镜像文件。存储某一时段NameNode内存元数据信息。

②edits:操作日志文件。

③fstime:保存最近一次checkpoint的时间

以上这些文件是保存在linux的文件系统中

2. 特点

<1>是一种允许文件通过网络在多台主机上分享的文件系统，可让多机器上的多用户分享文件和存储空间。

<2>通透性。让实际上是通过网络来访问文件的动作，由程序与用户看来，就像是访问本地的磁盘一般。

<3>容错。即使系统中有某些节点脱机，整体来说系统仍然可以持续运作而不会有数据损失。

<4>适用于一次写入、多次查询的情况，不支持并发写情况，小文件不合适

3. 目录结构

<1>既然NameNode维护这么多的信息,那么这些信息都存放在哪里呢?在hadoop源代码中有个文件叫做hdfs-default.xml，如图3.1所示。

图 3.1

<2>打开这个文件，在第149行和第158行，有两个配置信息，一个是dfs.name.dir，另一个是dfs.name.edits.dir。这两个文件表示的是NameNode的核心文件fsimage和edits的存放位置，如图3.2所示。

图 3.2

　　在对应配置的value值有${}，这是变量的表示方式，ER表达式，在程序读取文件时，会把变量的值读取出来。那么，第150行的变量hadoop.tmp.dir的值(即hadoop临时存储路径)，如图3.3所示。

图 3.3

但是在我们在上一章的配置文件core-site.xml中，配置的值是/usr/local/hadoop/tmp。

<3>我们可以进入linux文件系统，执行命令 cd /usr/local/hadoop/conf,more core-site.xml查看到如图3.3所示的内容。

图 3.4

　　可以看出，这两个文件的存储位置是在linux文件系统的/usr/local/hadoop/tmp/dfs/name目录下。

<4>我们进入这个目录，并查看个目录的内容，如图3.5所示。

图 3.5

从图中可知，NameNode的核心文件fsimage和edits的存放在current目录下，与此同时name目录下有一个文件in_use.lock而查看其内容的时候发现，内容为空，也就是说只能有一个Namenode进程能够访问该目录，读者可以自己试一下，当没有开启hadoop时，该目录下是没有文件in_use.lock 的，当hadoop启动以后才会生成该文件。

<5>文件fsimage是NameNode的核心文件，非常重要，丢失的话，Namenode无法使用，那么如何防止该文件丢失而造成不良后果呢。我可以下再次看一下hdfs-default.xml中的一段代码如图3.6所示。

图 3.6

由其中的描述可知，该变量，决定DFS NameNode 的NameTable(fsimage)应该在本地文件系统上的存储位置。如果这是一个用逗号分隔的列表的目录，那么nametable，会被复复制到所有的目录中,来冗余（备份来保证数据的安全性）。如${hadoop.tmp.dir}/dfs/name，~/name2，~/name3，~/name4。那么fsimage会分别复制到~/name1，~/name2，~/name3，~/name4目录中。所以这些目录一般是在不同的机器,不同的磁盘，不同的文件夹上，总之越分散越好，这样能保证数据的安全性。有人会问在多台机上怎么实现呢？其实在Linux中有nfs文件共享系统，这里不做详述。

<6>看一下edits的描述，看一下hdfs-default.xml中的一段代码如图3.7所示

图 3.7

由其中的描述可知，该变量，决定DFSNameNode的存储事务文件（edits）在本地文件系统上的位置。如果这是一个以逗号分隔的目录列表，那么，事务文件会被复制所有的目录中,来冗余。默认值是dfs.name.dir一样。（edit保存事务过程）

四、 HDFS的基本结构之DataNode

1.作用 : DataNode的作用是HDFS中真正存储数据的。

2. block

<1>如果一个文件非常大，比如100GB，那么怎么存储在DataNode中呢？DataNode在存储数据的时候是按照block为单位读写数据的。block是hdfs读写数据的基本单位。

<2>假设文件大小是100GB，从字节位置0开始，每64MB字节划分为一个block，依此类推，可以划分出很多的block。每个block就是64MB大小。

2.1 我们看一下org.apache.hadoop.hdfs.protocol.Block类，这里面的属性有以下几个，如图4.1所示。

图4.1

由上图可知，类中的属性没有一个是可以存储数据的。所以block本质上是一个逻辑概念，意味着block里面不会真正的存储数据，只是划分文件的。

2.2 为什么一定要划分为64MB大小呢？因为这是在默认配置文件中设置的，我们查看core-default.xml文件，如图4.2所示。

图4.2

上图中的参数ds.block.name指的就是block的大小，值是67 108 864字节，可以换算为64MB。如果我们不希望使用64MB大小，可以在core-site.xml中覆盖该值。注意单位是字节。

2.3 副本

<1>副本就是备份，目的当时是为了安全。正是因为集群环境的不可靠，所以才使用副本机制来保证数据的安全性。

<2>副本的缺点就是会占用大量的存储空间。副本越多，占用的空间越多。相比数据丢失的风险，存储空间的花费还是值得的。

<3>那么，一个文件有几个副本合适呢？我们查看hdfs-default.xml文件，如图4.3所示。

图4.3

从图4.3中可以看到，默认的副本数量是3。意味着HDFS中的每个数据块都有3份。当然，每一份肯定会尽力分配在不同的DataNode服务器中。试想：如果备份的3份数据都在同一台服务器上，那么这台服务器停机了，是不是所有的数据都丢了啊？

3. 目录结构

3.1 既然DataNode的block是划分文件并，那么划分后的文件到底存放在哪里哪？我们查看文件core-default.xml，如图4.4所示。

图4.4

参数dfs.data.dir的值就是block存放在linux文件系统中的位置。变量hadoop.tmp.dir的值前面已经介绍了，是/usr/local/hadoop/tmp，那么dfs.data.dir的完整路径是/usr/local/hadoop/tmp/dfs/data。通过linux命令查看，结果如图4.5所示。

3.2 我们首先点击PieTTY打开另一个Linux终端，上传一个文件 jdk-6u24-linux-i586.bin，文件大小为 84927175k，如图4.5所示。

图4-5

然后我们可以在原来终端，查看上传文件，就是在该Linux文件系统的/usr/local/hadoop/tmp/dfs/data目录下，如图4.6所示

图 4.6

上图中以“blk_”开头的文件就是存储数据的block。这里的命名是有规律的，除了block文件外，还有后缀是“meta”的文件，这是block的源数据文件，存放一些元数据信息。因此，上图中只有2个block文件。

注意：我们从linux磁盘上传一个完整的文件到hdfs中，这个文件在linux是可以看到的，但是上传到hdfs后，就不会有一个对应的文件存在，而是被划分成很多的block存在的。而且由于我们的hadoop安装方式是伪分布安装，只有一个节点，DataNode和NameNode都在这一个节点上，所以上传的block块最终还是在该Linux系统中。

五、 HDFS的基本结构之SecondaryNode

　　HA的一个解决方案。但不支持热备。配置即可。由于数据操作越多edits文件膨胀越大，但不能让他无限的膨胀下去，所以要把日志过程转换出来放到fsimage中。由于NameNode要接受用户的操作请求，必须能够快速响应用户请求，为了保证NameNode的快速响应给用户，所以将此项工作交给了SecondaryNode，所以他也备份一部分fsimage的一部分内容。

执行过程：从NameNode上下载元数据信息（fsimage,edits），然后把二者合并，生成新的fsimage，在本地保存，并将其推送到NameNode，同时重置NameNode的edits.默认在安装在NameNode节点上，但这样...不安全！

合并原理如图5.1所示。

图 5.1

时间： 2024-10-12 21:59:56

Hadoop日记Day5---HDFS深入浅析的相关文章

2本Hadoop技术内幕电子书百度网盘下载：深入理解MapReduce架构设计与实现原理、深入解析Hadoop Common和HDFS架构设计与实现原理

这是我收集的两本关于Hadoop的书,高清PDF版,在此和大家分享: 1.<Hadoop技术内幕:深入理解MapReduce架构设计与实现原理>董西成著机械工业出版社2013年5月出版 2.<Hadoop技术内幕:深入解析Hadoop Common和HDFS架构设计与实现原理>蔡斌.陈湘萍著机械工业出版社2013年4月出版百度网盘下载地址: http://pan.baidu.com/s/1sjNmkFj

Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解

通过这一阶段的调研总结,从内部机理的角度详细分析,HDFS.MapReduce.Hbase.Hive是如何运行,以及基于Hadoop数据仓库的构建和分布式数据库内部具体实现.如有不足,后续及时修改. HDFS的体系架构整个Hadoop的体系结构主要是通过HDFS来实现对分布式存储的底层支持,并通过MR来实现对分布式并行任务处理的程序支持. HDFS采用主从(Master/Slave)结构模型,一个HDFS集群是由一个NameNode和若干个DataNode组成的(在最新的Hadoop2.2版本

hadoop教程之HDFS常用文件操作命令

北京尚学堂提供 1.ls hadoop fs -ls / 列出hdfs文件系统根目录下的目录和文件 hadoop fs -ls -R / 列出hdfs文件系统所有的目录和文件 2.put hadoop fs -put < local file> < hdfs file > hdfs file的父目录一定要存在,否则命令不会执行 hadoop fs -put < local fileor dir >-< hdfs dir > hdfs dir 一定要存在,否则

Hadoop分布式文件系统--HDFS结构分析

转自:http://blog.csdn.net/androidlushangderen/article/details/47377543 HDFS系列:http://blog.csdn.net/Androidlushangderen/article/category/5734703 前言在Hadoop内部,具体实现了许多类的文件系统,当然最最被我们用到的就是他的分布式文件系统HDFS了.但是本篇文章不会讲HDFS的主从架构等东西,因为这些东西网上和资料书中都讲得很多了.所以,我决定以我个人的学

何时使用hadoop fs、hadoop dfs与hdfs dfs命令

hadoop fs:使用面最广,可以操作任何文件系统. hadoop dfs与hdfs dfs:只能操作HDFS文件系统相关(包括与Local FS间的操作),前者已经Deprecated,一般使用后者. 以下内容参考自stackoverflow Following are the three commands which appears same but have minute differences hadoop fs {args} hadoop dfs {args} hdfs dfs {a

Hadoop剖析之HDFS

Hadoop的分布式文件系统(HDFS)是Hadoop的很重要的一部分,本文先简单介绍HDFS的几个特点,然后再分析背后的原理,即怎样实现这种特点的. HDFS特点 1.高容错性.这是HDFS最核心的特性了,把大量数据部署在便宜的硬件上,即使其中某些磁盘出现故障,HDFS也能很快恢复丢失的数据. 2.简单一致性.这个的意思是HDFS适合一次写入,多次读取的程序,文件写入后,就不需要修改了.像MapReduce程序或者网络爬虫程序都是完美适合这个特点. 3.移动计算而不是移动数据.这个好解释,数据

Hadoop备战：hdfs常用命令（可能有你不知道的）

除介绍的命令外,还有许多bin/hadoop.dfs命令,以上介绍的只是帮助你开始使用HDFS,运行bin/hadoop dfs不带任何参数会列出所有FsShell系统提供的命令,当你遇到问题时执行bin/hadoop dfs –help commandName会显示这个命令的用法. 下面是所有命令的介绍,介绍之前先定义一下参数的意义: 1. 斜体:表示用户输入的变量. 2. path:表示文件名或目录名. 3. path-:表示一个或多个文件名或目录名. 4. file:表

Hadoop系列之hdfs(分布式文件系统)安装配置

Hadoop系列之hdfs(分布式文件系统)安装配置环境介绍: ip 节点192.168.3.10 hdfs-master192.168.3.11 hdfs-slave1192.168.3.12 hdfs-slave21.在所有机器添加hosts192.168.3.10 hdfs-master192.168.3.11 hdfs-slave1192.168.3.12 hdfs-slav

Hadoop 2.x HDFS新特性

Hadoop 2.x HDFS新特性 HDFS联邦 HDFS HA(要用到zookeeper等,留在后面再讲) HDFS快照回顾: HDFS两层模型 Namespace: 包括目录.文件和块.它支持所有命名空间相关的文件操作,如创建.删除.修改,查看所有文件和目录. Block Storage Service(块存储服务) 包括两部分: 1 在namenode中的块的管理:提供datanode集群的注册.心跳检测等功能.处理块的报告信息和维护块的位置信息

Hadoop日记系列目录

下面是Hadoop日记系列的目录,由于目前时间不是很充裕,以后的更新的速度会变慢,会按照一星期发布一期的原则进行,希望能和大家相互学习.交流. 目录安排 1> Hadoop日记Day1---Hadoop介绍 2> Hadoop日记Day2---虚拟机中搭建Linux 3> Hadoop日记Day3---Hadoop的伪分布式安装 4> Hadoop日记Day4---去除HADOOP_HOME is deprecated 5> Hadoop日记Day5---HDFS介