读《Hadoop权威指南》点滴-Hadoop分布式文件系统

Hadoop自带HDFS，即 Hadoop Distributed FileSystem（不是HaDoop FileSystem 的简称）
适用范围

超大文件：最新的容量达到PB级
流式数据访问：HDFS的构建思路：一次写入、多次读取时最高效的访问模式
低时间延迟的数据访问不适用HDFS
大量的小文件的限制：由于namenode将文件系统的元数据存储在内存中，因此该文件系统所能存储的文件总数受限于namenode的内存容量。根据经验，每个文件、目录、数据块的存储信息大约占150字节。举例来说，如果有一百万个文件，每个文件占用一个数据块，那至少需要300MB的内存。尽管存储上百万文件时可行的，但是存储数十亿个文件就超出了当前硬件的能力。
不支持多用户写入、任意修改文件：HDFS中的文件写入只支持单个写入者，而且写操作总是已只添加的方式在文件末尾写数据。不支持多个写入者操作，也不支持在文件的任意位置进行修改。

数据块
1. 磁盘块一般为512字节，普通文件系统块一般为几千字节，HDFS块默认128MB
2. 与普通文件系统不同，一个小于块大小的文件，不会占据整个块的大小（不会浪费块剩余空间）。如1MB的文件，只占用1MB空间，而不是128MB空间
3. 块的大小不能设置的太大，Mapreduce中map任务通常一次只处理一个块中的数据，如果块太大，任务数据太少（少于集群中节点的数量），那么集群的分布式计算就发挥不出来
4. 事实上，尽管不常见，也可存储一个文件，占用整个HDFS，该文件的块占满集群中的所有磁盘。
5. 使用块，可以将数据存储于文件权限分开设计，简化设计框架
namenode节点：整个集群只有1个namenode节点，管理文件系统的命名空间，他维护着系统树和整个树内所有的文件和目录。这些信息以两个文件形式永久保存在“本地磁盘”上，但并不永久保存块的位置信息，因为这些信息会在系统启动时根据datanode信息重建。
datanode节点：可以有多个，受客户端或namenode调度，并且定期向namenode节点发送他们所存储的块列表。负责存储并检索数据块。
如果运行namenode节点损坏，文件系统上所有的文件将会丢失，对namenode实现容错非常重要
1. 方法一：备份哪些组成文件系统元数据持久状态的文件，可以通过配置，是namenode节点在本地和NFS上同时存储持久状态（类似于oracle归档日志的多路写入）
2. 方法二：运行一个辅助namenode，但不能用作namenode。辅助namenode的重要作用是定期合并编辑日志与命名空间镜像，运行在单独的机器上，需要占用大量CPU时间，并需要与主namenode一样大小的内存。但是，辅助namenode保存的状态总是滞后于主节点，所以主节点全部失效时，难免会丢失部分数据。在这种情况下，一般把存储在NFS上的namenode元数据复制到辅助namenode并作为新的主节点运行
联邦HFDS：在2.x发行版本中引入的联邦HDFS允许通过添加namenode实现扩展，其中每个namenode管理文件系统命名空间的一部分。例如一个namenode管理/user目录下所有的文件，而另一个namenode管理/share目录下的所有文件。
在联邦环境下，每个namenode维护一个命名空间卷，由命名空间的元数据和一个数据块池组成，数据块池包含该命名空间下文件的所有的数据块。命名空间卷之间是相互独立的，亮亮之间并不相互通信，设置其中一个namenode失效也不会影响其他namenode的可用性。数据块池不再进行切分，因此集群中的所有datanode需要注册到每个namenode
要想访问联邦HDFS集群，客户端需要使用挂在数据表将文件路径映射到namenode。
高可用
1. Hadoop2增加了HDFS高可用（HA）的支持，配置了一对活动-备用（active-standby）namenode
2. namenode之间需要通过高可用

原文地址：https://www.cnblogs.com/jiangtao1218/p/8732394.html

时间： 2024-11-05 23:37:01

读《Hadoop权威指南》点滴-Hadoop分布式文件系统的相关文章

Hadoop权威指南读书笔记

本书中提到的Hadoop项目简述 Common:一组分布式文件系统和通用I/O的组件与接口(序列化.javaRPC和持久化数据结构). Avro:一种支持高效.跨语言的RPC以及永久存储数据的序列化系统. MapReduce:分布式数据处理模型和执行环境,运行于大型商业集群. HDFS:分布式文件系统,运行于大型商用机集群. Pig:一种数据流语言和运行环境,用以检索非常大的数据集.Pig运行在MapReduce和HDFS的集群上. Hive:一个分布式.按列存储的数据仓库.Hive管理HDFS

Hadoop权威指南学习笔记三

HDFS简单介绍声明:本文是本人基于Hadoop权威指南学习的一些个人理解和笔记,仅供学习參考.有什么不到之处还望指出,一起学习一起进步. 转载请注明:http://blog.csdn.net/my_acm Hadoop说白了就是一个提供了处理分析大数据的文件集群,当中最重要的无疑是HDFS(Hadoop Distributed File System)即Hadoop分布式文件系统. 1. HDFS是一种以流式数据訪问模式(一次写入多次读取的模式)存储超大文件的系统. 其不须要的高端的硬件系统

Hadoop权威指南学习笔记一

Hadoop权威指南学习笔记一声明:本文是本人基于Hadoop权威指南学习的一些个人理解和笔记,仅供学习参考,有什么不到之处还望指出,一起学习一起进步. 转载请注明:http://blog.csdn.net/my_acm 1. 数据的增长远远超过了磁盘的读取速度,传统的数据存储方式和分析方式变得不再适用于大数据的处理. Hadoop分为两大核心技术,HDFS(HadoopDistributed File System-分布式hadoop文件处理系统)和MapReduce(分为Map-数据映射等

《Hadoop权威指南》读书笔记

<Hadoop权威指南>读书笔记 Day1 第一章 1.MapReduce适合一次写入.多次读取数据的应用,关系型数据库则更适合持续更新的数据集. 2.MapReduce是一种线性的可伸缩编程模型. 3.高性能计算HPC和网格计算比较适合用于计算密集型的作业,但如果几点需要访问的数据量更庞大,很多节点就会因为网络带宽的瓶颈问题不得不闲下等数据.(HPC和网格计算的数据存储与SAN中,数据存储比较集中,数据访问一般通过网络) 4.MapReduce尽量在计算节点上存储数据,以实现数据的本地化快速

[hadoop]hadoop权威指南例第二版3-1、3-2

hadoop版本1.2.1 jdk1.7.0 例3-1.通过URLStreamHandler实例以标准输出方式显示Hadoop文件系统的文件 hadoop fs -mkdir input 在本地创建两个文件file1,file2,file1的内容为hello world,file2内容为hello Hadoop,然后上传到input,具体方法如Hadoop集群(第6期)_WordCount运行详解中 2.1.准备工作可以看到. 完整代码如下: 1 import org.apache.hadoop

《Hadoop权威指南》笔记第一章&第二章 MapReduce初探

? ? ? ? ? ? ? ? ? ? ? ? ? ? 使用MapReduce ? ? ? ? ? ? ? ? import java.io.IOException; // 是hadoop针对流处理优化的类型 import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; // 会继承这个基类 import org.apache

《hadoop权威指南》关于hive的第一个小例子的演示

本文是<hadoop权威指南>关于hive的小例子,通过这个例子可以很好地看出来hive是个什么东西. 前提是已经配置好hive的远程连接版本的环境,我是用了MYSQL数据库保存元数据. 环境要求: -配置好了Hadoop的HDFS文件系统,启动hdfs和yarn -配置好了hive的远程连接模式 -配置好了MySQL用于metadata的储存输入文件下载: https://github.com/tomwhite/hadoop-book/blob/master/input/ncdc/micr

《Hadoop权威指南》笔记第一章&第二章

Hadoop权威指南学习笔记二

MapReduce简单介绍声明:本文是本人基于Hadoop权威指南学习的一些个人理解和笔记,仅供学习參考,有什么不到之处还望指出,一起学习一起进步. 转载请注明:http://blog.csdn.net/my_acm 上一篇介绍了什么是Hadoop.Hadoop的作用等.本篇相同基于Hadoop权威指南,结合迪伦的Hadoop的视频教程对MapReduce做一个介绍. 1. MapReduce是Hadoop的核心之中的一个.MapReduce分为两个部分,Mapper和Ruducer模块.简单

hadoop权威指南学习(一) - 天气预报MapReduce程序的开发和部署

看过Tom White写的Hadoop权威指南(大象书)的朋友一定得从第一个天气预报的Map Reduce程序所吸引, 殊不知,Tom White大牛虽然在书中写了程序和讲解了原理,但是他以为你们都会部署了,这里轻描淡写给带过了,这样就给菜鸟们留了课题,其实在跑书中的程序的时候,如果没经验,还是会踩坑的. 这里笔者就把踩过的坑说一下,以防后来人浪费时间了. 1. 首先,你得下载书中的ncdc气象原始数据,这个可以从书中的官网下载. 作者比较做人家,只给了2年的历史数据,无妨,2年也可以运行.