HDFS的架构

HDFS开发

HDFS理论讲解

集群和分布式概念

集群：集群就是逻辑上处理统一任务的机器集合，可以属于同一机房，也可以分属不同的机房
分布式：分布式文件系统把文件分布存储到多个计算机节点上，成千上万的计算机节点构成计算机集群
分布式文件系统的结构
- 主节点
- 名称节点
- 数据节点

HDFS架构

块
- HDFS的文件被分成块进行存储
- 块是文件存储处理的逻辑单元
块存储的优点
- 支持大规模文件存储，一个大规模文件可以被拆成若干个文件块，不同的文件块可以被分发到不同的节点上
- 简化系统设计
- 适合数据备份

HDFS中的节点

namenode
- 是管理节点，存储元数据
- 存储文件和数据块的映射表
- 存储数据块和数据节点的映射表
- 负责管理分布式文件系统的命名空间
namenode数据结构
- FsImage：维护文件系统树以及文件书中所有的文件和文件夹的元数据
- EditLog：记录了所有针对文件的创建、删除、重命名等操作
datanode
- 是hdfs的工作节点，负责数据的存储和读取
- 根据客户端或者是名称节点的调度来警醒数据的存储和检索
- 定期向名称节点发送自己所存储的块的列表
- 每个数据节点中的数据会被保存在各自节点的本地linux文件系统中

原文地址：https://www.cnblogs.com/hannahzhao/p/11756581.html

时间： 2024-08-30 14:03:24

HDFS的架构的相关文章

HDFS HA架构以及源码引导

HA体系架构相关知识介绍 HDFS master/slave架构,HDFS节点分为NameNode节点和DataNode节点.NameNode存有HDFS的元数据:主要由FSImage和EditLog组成.FSImage保存有文件的目录.分块ID.文件权限等,EditLog保存有对HDFS的操作记录.DataNode存放分块的数据,并采用CRC循环校验方式对本地的数据进行校验,DataNode周期性向NameNode汇报本机的信息. NameNode单点故障:HDFS只有一个NameNode节

Hadoop1.x HDFS系统架构

HDFS系统架构 HDFS以流式数据访问(一次写入,多次读取)模式来存储超大文件,运行于商用硬件集群上.超大文件是指GB,TB,PB的文件.目前已经有存储到PB级别的Hadoop集群了. 计算机字节关系 Hadoop1.x HDFS官方架构图 HDFS中的概念针对上图来分析HDFS中的各个概念. 数据块每个磁盘都有数据块的概念,在HDFS中也有数据块的概念,HDFS中的所有文件都是分割成块存储在Datanode上的,每个块默认64M..每个块都有多个副本存储在不同的机器上:默认有3个副本(存

初步掌握HDFS的架构及原理

目录 HDFS 是做什么的 HDFS 从何而来为什么选择 HDFS 存储数据 HDFS 如何存储数据 HDFS 如何读取文件 HDFS 如何写入文件 HDFS 副本存放策略 Hadoop2.x新特性 1.HDFS 是做什么的 HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的商用服务器上.它所具有的高容错.高可靠性.高可扩展性.高获得性.高吞

HDFS的架构和设计要点

HDFS的架构和设计要点转大数据之路发布于 2012/10/11 23:00 字数 4487 阅读 495 收藏 1 点赞 0 评论 0 撸了今年阿里.头条和美团的面试,我有一个重要发现.......>>> 虽然本文已经比较旧远了,但是在很多方面还是有一定学习的价值,中文版译者为killme. 一.前提和设计目标硬件错误是常态,而非异常情况,HDFS可能是有成百上千的server组成,任何一个组件都有可能一直失效,因此错误检测和快速.自动的恢复是HDFS的核心架构目标. 跑在HD

初步掌握HDFS的架构及原理1

HDFS 是做什么的? HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的商用服务器上.它所具有的高容错.高可靠性.高可扩展性.高获得性.高吞吐率等特征为海量数据提供了不怕故障的存储,为超大数据集(Large Data Set)的应用处理带来了很多便利. HDFS 从何而来? HDFS 源于 Google 在2003年10月份发表的GFS(Go

理解HDFS高可用性架构

在Hadoop1.x版本的时候,Namenode存在着单点失效的问题.如果namenode失效了,那么所有的基于HDFS的客户端--包括MapReduce作业均无法读,写或列文件,因为namenode是唯一存储元数据与文件到数据块映射的地方.而从一个失效的namenode中恢复的步骤繁多,系统恢复时间太长,也会影响到日常的维护. Hadoop的2.x版本在HDFS中增加了对高可用性的支持来解决单点失效的问题. 这一实现中简单说就是配置了一对活动-备用namenode.当活动namenode失效的

HDFS HA架构以及源代码引导

HA体系架构相关知识介绍 HDFS master/slave架构,HDFS节点分为NameNode节点和DataNode节点. NameNode存有HDFS的元数据:主要由FSImage和EditLog组成. FSImage保存有文件的文件夹.分块ID.文件权限等,EditLog保存有对HDFS的操作记录. DataNode存放分块的数据,并採用CRC循环校验方式对本地的数据进行校验,DataNode周期性向NameNode汇报本机的信息. NameNode单点故障:HDFS仅仅有一个Name

初步掌握HDFS的架构及原理4

HDFS 副本存放策略 namenode 如何选择在哪个 datanode 存储副本(replication)?这里需要对可靠性.写入带宽和读取带宽进行权衡. Hadoop 对 datanode 存储副本有自己的副本策略,在其发展过程中一共有两个版本的副本策略,分别如下所示. Hadoop 0.17之前的副本策略第一个副本:存储在同机架的不同节点上. 第二个副本:存储在同机架的另外一个节点上. 第三个副本:存储在不同机架的另外一个节点. 其它副本:选择随机存储. Hadoop 0.17 之后的

初步掌握HDFS的架构及原理2

HDFS 如何读取文件? HDFS的文件读取原理,主要包括以下几个步骤: 1.首先调用FileSystem对象的open方法,其实获取的是一个DistributedFileSystem的实例. 2.DistributedFileSystem通过RPC(远程过程调用)获得文件的第一批block的locations,同一block按照重复数会返回多个locations,这些locations按照hadoop拓扑结构排序,距离客户端近的排在前面. 3.前两步会返回一个FSDataInputStream