HDFS的架构

HDFS开发

HDFS理论讲解

集群和分布式概念

  • 集群:集群就是逻辑上处理统一任务的机器集合,可以属于同一机房,也可以分属不同的机房
  • 分布式:分布式文件系统把文件分布存储到多个计算机节点上,成千上万的计算机节点构成计算机集群
  • 分布式文件系统的结构
    • 主节点
    • 名称节点
    • 数据节点

HDFS架构

    • HDFS的文件被分成块进行存储
    • 块是文件存储处理的逻辑单元
  • 块存储的优点
    • 支持大规模文件存储,一个大规模文件可以被拆成若干个文件块,不同的文件块可以被分发到不同的节点上
    • 简化系统设计
    • 适合数据备份

HDFS中的节点

  • namenode

    • 是管理节点,存储元数据
    • 存储文件和数据块的映射表
    • 存储数据块和数据节点的映射表
    • 负责管理分布式文件系统的命名空间
  • namenode数据结构
    • FsImage:维护文件系统树以及文件书中所有的文件和文件夹的元数据
    • EditLog:记录了所有针对文件的创建、删除、重命名等操作
  • datanode
    • 是hdfs的工作节点,负责数据的存储和读取
    • 根据客户端或者是名称节点的调度来警醒数据的存储和检索
    • 定期向名称节点发送自己所存储的块的列表
    • 每个数据节点中的数据会被保存在各自节点的本地linux文件系统中

原文地址:https://www.cnblogs.com/hannahzhao/p/11756581.html

时间: 2024-08-30 14:03:24

HDFS的架构的相关文章

HDFS HA架构以及源码引导

HA体系架构 相关知识介绍 HDFS master/slave架构,HDFS节点分为NameNode节点和DataNode节点.NameNode存有HDFS的元数据:主要由FSImage和EditLog组成.FSImage保存有文件的目录.分块ID.文件权限等,EditLog保存有对HDFS的操作记录.DataNode存放分块的数据,并采用CRC循环校验方式对本地的数据进行校验,DataNode周期性向NameNode汇报本机的信息. NameNode单点故障:HDFS只有一个NameNode节

Hadoop1.x HDFS系统架构

HDFS系统架构 HDFS以流式数据访问(一次写入,多次读取)模式来存储超大文件,运行于商用硬件集群上.超大文件是指GB,TB,PB的文件.目前已经有存储到PB级别的Hadoop集群了. 计算机字节关系 Hadoop1.x HDFS官方架构图 HDFS中的概念 针对上图来分析HDFS中的各个概念. 数据块 每个磁盘都有数据块的概念,在HDFS中也有数据块的概念,HDFS中的所有文件都是分割成块存储在Datanode上的,每个块默认64M..每个块都有多个副本存储在不同的机器上:默认有3个副本(存

初步掌握HDFS的架构及原理

目录 HDFS 是做什么的 HDFS 从何而来 为什么选择 HDFS 存储数据 HDFS 如何存储数据 HDFS 如何读取文件 HDFS 如何写入文件 HDFS 副本存放策略 Hadoop2.x新特性 1.HDFS 是做什么的 HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的商用服务器上.它所具有的高容错.高可靠性.高可扩展性.高获得性.高吞

HDFS的架构和设计要点

HDFS的架构和设计要点 转 大数据之路 发布于 2012/10/11 23:00 字数 4487 阅读 495 收藏 1 点赞 0 评论 0 撸了今年阿里.头条和美团的面试,我有一个重要发现.......>>> 虽然本文已经比较旧远了,但是在很多方面还是有一定学习的价值,中文版译者为killme. 一.前提和设计目标 硬件错误是常态,而非异常情况,HDFS可能是有成百上千的server组成,任何一个组件都有可能一直失效,因此错误检测和快速.自动的恢复是HDFS的核心架构目标. 跑在HD

初步掌握HDFS的架构及原理1

HDFS 是做什么的? HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的商用服务器上.它所具有的高容错.高可靠性.高可扩展性.高获得性.高吞吐率等特征为海量数据提供了不怕故障的存储,为超大数据集(Large Data Set)的应用处理带来了很多便利. HDFS 从何而来? HDFS 源于 Google 在2003年10月份发表的GFS(Go

理解HDFS高可用性架构

在Hadoop1.x版本的时候,Namenode存在着单点失效的问题.如果namenode失效了,那么所有的基于HDFS的客户端--包括MapReduce作业均无法读,写或列文件,因为namenode是唯一存储元数据与文件到数据块映射的地方.而从一个失效的namenode中恢复的步骤繁多,系统恢复时间太长,也会影响到日常的维护. Hadoop的2.x版本在HDFS中增加了对高可用性的支持来解决单点失效的问题. 这一实现中简单说就是配置了一对活动-备用namenode.当活动namenode失效的

HDFS HA架构以及源代码引导

HA体系架构 相关知识介绍 HDFS master/slave架构,HDFS节点分为NameNode节点和DataNode节点. NameNode存有HDFS的元数据:主要由FSImage和EditLog组成. FSImage保存有文件的文件夹.分块ID.文件权限等,EditLog保存有对HDFS的操作记录. DataNode存放分块的数据,并採用CRC循环校验方式对本地的数据进行校验,DataNode周期性向NameNode汇报本机的信息. NameNode单点故障:HDFS仅仅有一个Name

初步掌握HDFS的架构及原理4

HDFS 副本存放策略 namenode 如何选择在哪个 datanode 存储副本(replication)?这里需要对可靠性.写入带宽和读取带宽进行权衡. Hadoop 对 datanode 存储副本有自己的副本策略,在其发展过程中一共有两个版本的副本策略,分别如下所示. Hadoop 0.17之前的副本策略 第一个副本:存储在同机架的不同节点上. 第二个副本:存储在同机架的另外一个节点上. 第三个副本:存储在不同机架的另外一个节点. 其它副本:选择随机存储. Hadoop 0.17 之后的

初步掌握HDFS的架构及原理2

HDFS 如何读取文件? HDFS的文件读取原理,主要包括以下几个步骤: 1.首先调用FileSystem对象的open方法,其实获取的是一个DistributedFileSystem的实例. 2.DistributedFileSystem通过RPC(远程过程调用)获得文件的第一批block的locations,同一block按照重复数会返回多个locations,这些locations按照hadoop拓扑结构排序,距离客户端近的排在前面. 3.前两步会返回一个FSDataInputStream