HDSF主要节点讲解(二)工作原理

HDFS（Hadoop Distributed File System ）Hadoop分布式文件系统。是根据google发表的论文翻版的。论文为GFS（Google File System）Google 文件系统（中文，英文）。

HDFS有很多特点：

① 保存多个副本，且提供容错机制，副本丢失或宕机自动恢复。默认存3份。

② 运行在廉价的机器上。

③ 适合大数据的处理。多大？多小？HDFS默认会将文件分割成block，64M为1个block。然后将block按键值对存储在HDFS上，并将键值对的映射存到内存中。如果小文件太多，那内存的负担会很重。

如上图所示，HDFS也是按照Master和Slave的结构。分NameNode、SecondaryNameNode、DataNode这几个角色。

NameNode：是Master节点，是大领导。管理数据块映射；处理客户端的读写请求；配置副本策略；管理HDFS的名称空间；

SecondaryNameNode：是一个小弟，分担大哥namenode的工作量；是NameNode的冷备份；合并fsimage和fsedits然后再发给namenode。

DataNode：Slave节点，奴隶，干活的。负责存储client发来的数据块block；执行数据块的读写操作。

热备份：b是a的热备份，如果a坏掉。那么b马上运行代替a的工作。

冷备份：b是a的冷备份，如果a坏掉。那么b不能马上代替a工作。但是b上存储a的一些信息，减少a坏掉之后的损失。

fsimage:元数据镜像文件（文件系统的目录树。）

edits：元数据的操作日志（针对文件系统做的修改操作记录）

namenode内存中存储的是=fsimage+edits。

SecondaryNameNode负责定时默认1小时，从namenode上，获取fsimage和edits来进行合并，然后再发送给namenode。减少namenode的工作量。

工作原理

写操作：

有一个文件FileA，100M大小。Client将FileA写入到HDFS上。

HDFS按默认配置。

HDFS分布在三个机架上Rack1，Rack2，Rack3。

a. Client将FileA按64M分块。分成两块，block1和Block2;

b. Client向nameNode发送写数据请求，如图蓝色虚线①------>。

c. NameNode节点，记录block信息。并返回可用的DataNode，如粉色虚线②--------->。

Block1: host2,host1,host3

Block2: host7,host8,host4

原理：

NameNode具有RackAware机架感知功能，这个可以配置。

若client为DataNode节点，那存储block时，规则为：副本1，同client的节点上；副本2，不同机架节点上；副本3，同第二个副本机架的另一个节点上；其他副本随机挑选。

若client不为DataNode节点，那存储block时，规则为：副本1，随机选择一个节点上；副本2，不同副本1，机架上；副本3，同副本2相同的另一个节点上；其他副本随机挑选。

d. client向DataNode发送block1；发送过程是以流式写入。

流式写入过程，

1>将64M的block1按64k的package划分;

2>然后将第一个package发送给host2;

3>host2接收完后，将第一个package发送给host1，同时client想host2发送第二个package；

4>host1接收完第一个package后，发送给host3，同时接收host2发来的第二个package。

5>以此类推，如图红线实线所示，直到将block1发送完毕。

6>host2,host1,host3向NameNode，host2向Client发送通知，说“消息发送完了”。如图粉红颜色实线所示。

7>client收到host2发来的消息后，向namenode发送消息，说我写完了。这样就真完成了。如图黄色粗实线

8>发送完block1后，再向host7，host8，host4发送block2，如图蓝色实线所示。

9>发送完block2后，host7,host8,host4向NameNode，host7向Client发送通知，如图浅绿色实线所示。

10>client向NameNode发送消息，说我写完了，如图黄色粗实线。。。这样就完毕了。

分析，通过写过程，我们可以了解到：

①写1T文件，我们需要3T的存储，3T的网络流量贷款。

②在执行读或写的过程中，NameNode和DataNode通过HeartBeat进行保存通信，确定DataNode活着。如果发现DataNode死掉了，就将死掉的DataNode上的数据，放到其他节点去。读取时，要读其他节点去。

③挂掉一个节点，没关系，还有其他节点可以备份；甚至，挂掉某一个机架，也没关系；其他机架上，也有备份。

读操作：

读操作就简单一些了，如图所示，client要从datanode上，读取FileA。而FileA由block1和block2组成。

那么，读操作流程为：

a. client向namenode发送读请求。

b. namenode查看Metadata信息，返回fileA的block的位置。

block1:host2,host1,host3

block2:host7,host8,host4

c. block的位置是有先后顺序的，先读block1，再读block2。而且block1去host2上读取；然后block2，去host7上读取；

上面例子中，client位于机架外，那么如果client位于机架内某个DataNode上，例如,client是host6。那么读取的时候，遵循的规律是：

优选读取本机架上的数据。

HDSF主要节点讲解(二)工作原理

时间： 2024-10-05 05:31:57

HDSF主要节点讲解(二)工作原理的相关文章

HDSF主要节点解说(二)工作原理

HDFS(Hadoop Distributed File System )Hadoop分布式文件系统. 是依据google发表的论文翻版的.论文为GFS(Google File System)Google 文件系统(中文.英文). HDFS有非常多特点: ① 保存多个副本,且提供容错机制,副本丢失或宕机自己主动恢复.默认存3份. ② 执行在便宜的机器上. ③ 适合大数据的处理. 多大?多小?HDFS默认会将文件切割成block,64M为1个block.然后将block按键值对存储在HDFS上,并

Storm概念讲解和工作原理介绍

Strom的结构 Storm与传统关系型数据库传统关系型数据库是先存后计算,而storm则是先算后存,甚至不存传统关系型数据库很难部署实时计算,只能部署定时任务统计分析窗口数据关系型数据库重视事务,并发控制,相对来说Storm比较简陋 Storm不Hadoop,Spark等是流行的大数据方案与Storm关系密切的语言:核心代码用clojure书写,实用程序用python开发,使用java开发拓扑 topology Storm集群中有两种节点,一种是控制节点(Nimbus节点),另一种是工

Struts2(二)工作原理

一.概述 1.struts框架本身分为三个部分:核心控制器FilterDispatcher.业务控制器Action和用户实现的企业业务逻辑组件. 2.struts2工作的基本流程: 客户端初始化一个指向Servlet容器的请求 org.apache.struts2.dispatcher.ng.filter.StrutsPrepareAndExecuteFilter被调用,该过滤器询问ActionMaper这个请求是否需要调用某个Action 如果ActionMapper决定需要调用某个Actio

详解JVM工作原理和特点

在我们运行和调试Java程序的时候,经常会提到一个JVM的概念.本文将为大家讲解JVM工作原理和特点,希望对大家有所帮助. AD:网+线下沙龙 | 移动APP模式创新:给你一个做APP的理由>> JVM工作原理和特点主要是指操作系统装入JVM是通过jdk中Java.exe来完成,通过下面4步来完成JVM环境. 1.创建JVM装载环境和配置 2.装载JVM.dll 3.初始化JVM.dll并挂界到JNIENV(JNI调用接口)实例 4.调用JNIEnv实例装载并处理class类. 在我们运行和调

路由器开发（二）—— 路由器工作原理

当信息需要在两个网络之间传输时,常用路由器这种互连设备来负责数据的传输.路由器的主要工作是:路径的决定和数据包的转发(从路由器一个接口输入,然后选择合适接口输出):维护路由表. 路由器工作的方式非常简洁明了,从接收报文中抽取目的地址,并确定地址中的网络号,查找路由选择表以获得与目标网络相匹配的表项.在路由选择表中的匹配表项中包括下一站.目的地.输出接口和其它与路由有关的参数.报文被封装在适合输出接口的帧中,并由输出接口输出. 下面具体分析路由器两种工作的工作原理. 一.路由的概念路由是将对象

磁盘工作原理、文件系统及i节点、块存储、文件存储、对象存储、DAS、NAS、还有SAN

(一)磁盘工作原理一般硬盘正面贴有产品标签,主要包括厂家信息和产品信息,如商标.型号.序列号.生产日期.容量.参数和主从设置方法等.这些信息是正确使用硬盘的基本依据,下面将逐步介绍它们的含义. 硬盘主要由盘体.控制电路板和接口部件等组成,如图1-1所示.盘体是一个密封的腔体.硬盘的内部结构通常是指盘体的内部结构:控制电路板上主要有硬盘BIOS.硬盘缓存(即CACHE)和主控制芯片等单元,如图1-2所示:硬盘接口包括电源插座.数据接口和主.从跳线,如图1-3所示. 图1-1 硬盘的外观图1-

How Javascript works (Javascript工作原理) (十二) 网络层探秘及如何提高其性能和安全性

个人总结:阅读完这篇文章需要20分钟,这篇文章主要讲解了现代浏览器在网络层传输所用到的一些技术. 这是 JavaScript 工作原理的第十二章. 正如在之前关于渲染引擎的文章中所讲的那样,我们相信好的和伟大的 JavaScript 开发者之间的差别在于后者不仅仅只是理解了语言的具体细节还了解其内部构造和运行环境. 网络简史 49 年前,ARPAnet 诞生了.它是早期的报文分组交换网络及第一个实现 TCP/IP 协议套件的网络.该网络连通了加利福亚大堂和斯坦福研究所.20 年后,Tim Ber

MongoDB复制集的工作原理介绍（二）

复制集工作原理 1)数据复制原理开启复制集后,主节点会在 local 库下生成一个集合叫 oplog.rs,这是一个有限集合,也就是大小是固定的.其中记录的是整个mongod实例一段时间内数据库的所有变更(插入/更新/删除)操作,当空间用完时新记录自动覆盖最老的记录. 复制集中的从节点就是通过读取主节点上面的 oplog 来实现数据同步的,MongoDB的oplog(操作日志)是一种特殊的封顶集合,滚动覆盖写入,固定大小.另外oplog的滚动覆盖写入方式有两种:一种是达到设定大小就开始覆盖写入

分布式的几件小事（二）dubbo的工作原理

1.dubbo的工作原理 ①整体设计图例说明: 图中左边淡蓝背景的为服务消费方使用的接口,右边淡绿色背景的为服务提供方使用的接口,位于中轴线上的为双方都用到的接口. 图中从下至上分为十层,各层均为单向依赖,右边的黑色箭头代表层之间的依赖关系,每一层都可以剥离上层被复用,其中,Service 和 Config 层为 API,其它各层均为 SPI. 图中绿色小块的为扩展接口,蓝色小块为实现类,图中只显示用于关联各层的实现类. 图中蓝色虚线为初始化过程,即启动时组装链,红色实线为方法调用过程,即运行

猜你喜欢

第一篇、实现上拉和下拉刷新

简介: 在iOS开发中,我们经常要用到下拉刷新和上拉刷新来加载新的数据,当前这也适合分页.iOS原生就带有该方法,下面就iOS自带的下拉刷新方法来简单操作. 功能: 1.下拉刷新(用系统自带的刷新控件 ...

使用递归的整数输出（高位到低位）/输出一个菱形（能够确定行数）

//递归的整数输出 #include <stdio.h> void output(int x); int main() { int a; printf("请输出一个数" ...

Jenkins配置slave遇到“无法启动该应用程序”的问题

飞测说:最近在负责持续集成相关的工作,我们用的是jenkins+svn+maven+sonar, 今天在用slave这块出现了一个问题,排查了好久才解决,踩过的坑,现在和大家一起看看,希望对大家有帮助 ...

2015Q1 全球服务器，存储市场表现- 苦乐年华

近日,一些统计机构陆续发布了2015年Q1全球服务器,存储,融合架构市场表现.可以说几家欢乐几家愁.总体讲: - 服务器市场高速增长(17.2%).各主要厂商(除IBM割肉了)均保持双位数增长,Ci ...

优化UITableView cell的滚动速度

1. 利用好instruments.先检测leaks,再去观察优化效果. 2. 重中之重在于tableview cell的初始化,建议在tableview delegate中只实现配置方法,渲染全扔到 ...

hdu 1829 A Bug's Life 并查集系列

1 #include "cstdio" 2 #include "iostream" 3 #include "cstring" 4 #incl ...

python 之 BeautifulSoup标签查找与信息提取

一. 查找a标签 (1)查找所有a标签 >>> for x in soup.find_all('a'): print(x) <a class="sister" ...

2016 申请QQ邮件订阅邮件列表的方法

百度了一下,最终还是找到了方法. 原先的QQ邮件列表已经http://list.qq.com/ 已经不可以注册. 现在的思路就是购买域名或已有域名->申请免费的腾讯企业邮箱->绑定域名- ...

ActiveAdmin 自定义列表Action

添加自定义按钮默认情况下,列表中会显示 "查看"."编辑"."删除"按钮.如下. 如何添加一个自定义的按钮呢?如下. 如上图,在列表中添加 ...

iOS适配各版本

1.navigationItem if (isBeforeIOS7) { UIButton *yes = [UIButton buttonWithType:UIButtonTypeCustom]; y ...

如何快速的开发一个完整的iOS直播app(原理篇)

前言大半年没写博客了,但我一直关注着互联网的动向,最近会研究很多东西,并分享,今年移动直播行业的兴起,诞生了一大批网红,甚至明星也开始直播了,因此不得不跟上时代的步伐,由于第一次接触的原因,因此花了 ...

springmvc学习笔记（一）之简介

一.简介 SpringMVC 是一个MVC框架,是基于Model-View-Controller模式实现的.类似于Struts2等mvc框架使数据-业务-展现很好的隔离开. 每当用户在web浏览器点击 ...

Linux无法正常启动并提示UNEXPECTED INCONSISTENCY;RUN fsck MANUALLY信息

生产服务器: 操作系统:CentOS 6.8 问题如下图: 原因:文件系统被损坏了. 解决方式: 按键盘上的"Control-D"键,输入root用户密码: # umount / ...

js007-函数表达式

js007-函数表达式本章内容 1.函数表达式的特征 2.使用函数实现递归 3.使用闭包定义私有量定义函数的方式有两种:一:函数声明,二:函数表达式函数声明: function function ...

关于VMware给系统分区扩容的一点经验

我的VMware版本是8.0.6 build-1035888,里面安装的是Windows XP SP3 首先,在VM关机状态下使用Hard disk设置中的Utilities下的Expand给整个磁盘 ...

hibernate查漏补缺1

转载请注明: TheViper http://www.cnblogs.com/TheViper SessionFactory接口一个SessionFactory接口对应一个数据存储源.特点: 1.线 ...

easyui 后台页面，在Tab中的链接点击后添加一个新TAB的解决方法

1.示例1 新增一个按钮添加点击事件 onclick="self.parent.addTab('百度','http://www.baidu.com','icon-add')" 如 ...

jQuery的Deferred对象教程

阮一峰的这往篇教程讲得非常好:http://www.ruanyifeng.com/blog/2011/08/a_detailed_explanation_of_jquery_deferred_obje ...

Searching for equivalent of FileNotFoundError in Python 2

I created a class named Options. It works fine but not not with Python 2. And I want it to work on b ...

centos7下部署elasticSearch集群

OS:Centos7x虚拟机 1H2Gjdk:1.8elasticsearch:5.6.0 单节点配置请参考:centos7下elasticSearch安装配置配置master节点 # 在配置文件的 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.023 s.