3. hdfs原理分析

1. HDFS （2.0）架构：

2. HDFS 设计思想：

HDFS数据块（block）:

文件被切分成固定大小的数据块

默认数据块大小为64MB，可配置
若文件大小不到64MB，则单独存成一个block

为何数据块如此之大

数据传输时间超过寻道时间（高吞吐率）

一个文件存储方式

按大小被切分成若干个block，存储到不同节点上
默认情况下每个block有三个副本

3. HDFS优缺点：

优点：

高容错性

数据自动保存多个副本
副本丢失后，自动恢复

适合批处理

移动计算而非数据
数据位置暴露给计算框架

适合大数据处理

GB、TB、甚至PB级数据
百万规模以上的文件数量
10K+节点规模

流式文件访问

一次性写入，多次读取
保证数据一致性

可构建在廉价机器上

通过多副本提高可靠性
提供了容错和恢复机制

缺点：

低延迟数据访问

比如毫秒级
低延迟与高吞吐率

小文件存取

占用NameNode大量内存
寻道时间超过读取时间

并发写入、文件随机修改

一个文件只能有一个写者
仅支持append

4. HDFS 写流程：

5. HDFS 读流程：

6. HDFS副本放置策略：

问题：

一个文件划分成多个block，每个block存多份，如何为每个block选择节点存储这几份数据？

Block副本放置策略：

副本1: 同Client的节点上
副本2: 不同机架中的节点上
副本3: 与第二个副本同一机架的另一个节点上
其他副本:随机挑选

HDFS可靠性策略：

7. HDFS典型物理拓扑：

来自为知笔记(Wiz)

时间： 2024-11-03 03:27:12

3. hdfs原理分析的相关文章

HDFS原理分析-——HA机制 avatarnode原理

一.问题描述由于namenode 是HDFS的大脑,而这个大脑又是单点,如果大脑出现故障,则整个分布式存储系统就瘫痪了.HA(High Available)机制就是用来解决这样一个问题的.碰到这么个问题,首先本能的想到的就是冗余备份,备份的方式有很多种,前辈们设计的有元数据备份方案,secondary namenode以及avatarnode等方案.而这些方案中最有优势的自然是能够让HDFS以最短的时间完成故障切换的方案.也就是我们今天要讨论的avatarnode. 二.基本结构 primar

HDFS原理分析之HA机制：avatarnode原理

Hadoop之HDFS原理及文件上传下载源码分析（上）

HDFS原理首先说明下,hadoop的各种搭建方式不再介绍,相信各位玩hadoop的同学随便都能搭出来. 楼主的环境: 操作系统:Ubuntu 15.10 hadoop版本:2.7.3 HA:否(随便搭了个伪分布式) 文件上传下图描述了Client向HDFS上传一个200M大小的日志文件的大致过程: 首先,Client发起文件上传请求,即通过RPC与NameNode建立通讯. NameNode与各DataNode使用心跳机制来获取DataNode信息.NameNode收到Client请求后,

Hadoop之HDFS原理及文件上传下载源码分析（下）

上篇Hadoop之HDFS原理及文件上传下载源码分析(上)楼主主要介绍了hdfs原理及FileSystem的初始化源码解析, Client如何与NameNode建立RPC通信.本篇将继续介绍hdfs文件上传.下载源解析. 文件上传先上文件上传的方法调用过程时序图: 其主要执行过程: FileSystem初始化,Client拿到NameNodeRpcServer代理对象,建立与NameNode的RPC通信(楼主上篇已经介绍过了) 调用FileSystem的create()方法,由于实现类为Dis

Hadoop数据管理介绍及原理分析

Hadoop数据管理介绍及原理分析最近2014大数据会议正如火如荼的进行着,Hadoop之父Doug Cutting也被邀参加,我有幸听了他的演讲并获得亲笔签名书一本,发现他竟然是左手写字,当然这个他解释为个人习惯问题,也是,外国人左手写字的为数不少,在中国,左撇子在小时候的父母眼中就是“异类”,早早的被矫正过来.废话不多说了,接下来介绍Hadoop的数据管理. Hadoop的数据管理,主要包括Hadoop的分布式文件系统HDFS.分布式数据库HBase和数据仓库工具Hive. HDFS的数据

HDFS 原理、架构与特性介绍

本文主要讲述 HDFS原理-架构.副本机制.HDFS负载均衡.机架感知.健壮性.文件删除恢复机制 1:当前HDFS架构详尽分析 HDFS架构 •NameNode •DataNode •Sencondary NameNode 数据存储细节 NameNode 目录结构 Namenode 的目录结构: ${ dfs.name.dir}/current /VERSION /

手动实现一个单词统计MapReduce程序与过程原理分析

[toc] 手动实现一个单词统计MapReduce程序与过程原理分析前言我们知道,在搭建好hadoop环境后,可以运行wordcount程序来体验一下hadoop的功能,该程序在hadoop目录下的share/hadoop/mapreduce目录中,通过下面的命令: yarn jar $HADOOP_HOME/share/hadoop/mapreducehadoop-mapreduce-examples-2.6.4.jar wordcount inputPath outPath 即可对输入文

茄子快传数据分析之原理分析及数据清洗

茄子快传数据分析之原理分析及数据清洗版权声明:闻道有先后,术业有专攻. https://blog.csdn.net/wlk_328909605/article/details/82227410 需求:联想集团有一款app产品叫茄子快传(有上亿的活跃用户,集中在第三世界国家) 现在需要开发一个数据分析系统,来对app的用户行为数据做各类分析: 原理: 流程如下图: 流程简单介绍: 用户通过茄子的客户端产生数据, 将使用时间,手机号,ip地址,手机的序列号,app的版本,app的下载渠道等重要信息

kafka producer实例及原理分析

1.前言首先,描述下应用场景: 假设,公司有一款游戏,需要做行为统计分析,数据的源头来自日志,由于用户行为非常多,导致日志量非常大.将日志数据插入数据库然后再进行分析,已经满足不了.最好的办法是存日志,然后通过对日志的分析,计算出有用的数据.我们采用kafka这种分布式日志系统来实现这一过程. 步骤如下: 搭建KAFKA系统运行环境如果你还没有搭建起来,可以参考我的博客: http://zhangfengzhe.blog.51cto.com/8855103/1556650 设计数据存储格式