第124讲:Hadoop集群管理之fsimage和edits工作机制内幕详解学习笔记

客户端对hdfs进行写文件时会首先被记录在edits文件中。

edits修改时元数据也会更新。

每次hdfs更新时edits先更新后客户端才会看到最新信息。

fsimage:是namenode中关于元数据的镜像,一般称为检查点。

一般开始时对namenode的操作都放在edits中,为什么不放在fsimage中呢?

因为fsimage是namenode的完整的镜像,内容很大,如果每次都加载到内存的话生成树状拓扑结构,这是非常耗内存和CPU。

内容包含了namenode管理下的所有datanode中文件及文件block及block所在的datanode的元数据信息。随着edits内容增大,就需要在一定时间点和fsimage合并。

合并过程:

完成合并的是secondarynamenode,会请求namenode停止使用edits,暂时将新写操作放入一个新的文件中(edits.new)。secondarynamenode从namenode中通过http get获得edits,因为要和fsimage合并,所以也是通过http get 的方式把fsimage加载到内存,然后逐一执行具体对文件系统的操作,与fsimage合并,生成新的fsimage,然后把fsimage发送给namenode,通过http post的方式。namenode从secondarynamenode获得了fsimage后会把原有的fsimage替换为新的fsimage,把edits.new变成edits。同时会更新fstime。

hadoop进入安全模式时需要管理员使用dfsadmin的save namespace来创建新的检查点。

secondarynamenode在合并edits和fsimage时需要消耗的内存和namenode差不多,所以一般把namenode和secondarynamenode放在不同的机器上。

fs.checkpoint.period: 默认是一个小时(3600s)

fs.checkpoint.size:  edits达到一定大小时也会触发合并(默认64MB)

以上内容是从王家林老师DT大数据课程第124讲的学习笔记。
DT大数据微信公众账号:DT_Spark

王家林老师QQ:1740415547

王家林老师微信号:18610086859
 王家林的第一个中国梦:免费为全社会培养100万名优秀的大数据从业人员!
您可以通过王家林老师的微信号18610086859发红包捐助大数据、互联网+、O2O、工业4.0、微营销、移动互联网等系列免费实战课程, 目前已经发布的王家林免费视频全集如下:

1,《大数据不眠夜:Spark内核天机解密(共100讲)》: http://pan.baidu.com/s/1eQsHZAq

2,《Hadoop深入浅出实战经典》http://pan.baidu.com/s/1mgpfRPu

3,《Spark纯实战公益大讲坛》http://pan.baidu.com/s/1jGpNGwu

4,《Scala深入浅出实战经典》http://pan.baidu.com/s/1sjDWG25

5,《Docker公益大讲坛》http://pan.baidu.com/s/1kTpL8UF

6,《Spark亚太研究院Spark公益大讲堂》http://pan.baidu.com/s/1i30Ewsd

7,DT大数据梦工厂Spark、Scala、Hadoop的所有视频、PPT和代码在百度云网盘的链接:

http://pan.baidu.com/share/home?uk=4013289088#category/type=0&qq-pf-to=pcqq.group

王家林免费在51CTO发布的1000集合大数据spark、hadoop、scala、docker视频:

1,《Scala深入浅出实战初级入门经典视频课程》http://edu.51cto.com/lesson/id-66538.html

2,《Scala深入浅出实战中级进阶经典视频课程》http://edu.51cto.com/lesson/id-67139.html

3,《Akka深入浅出实战经典视频课程》http://edu.51cto.com/lesson/id-77672.html

4,《Spark亚太研究院决胜大数据时代公益大讲堂》http://edu.51cto.com/lesson/id-30815.html

5,《云计算Docker虚拟化公益大讲坛 》http://edu.51cto.com/lesson/id-61776.html

6,《Spark 大讲堂(纯实战手动操作)》http://edu.51cto.com/lesson/id-78653.html

7,《Hadoop深入浅出实战经典视频课程-集群、HDFS、Yarn、MapReduce》http://edu.51cto.com/lesson/id-77141.html

8,《从技术角度思考Hadoop到底是什么》http://edu.51cto.com/course/course_id-1151.html

“DT大数据梦工厂”团队第一个中国梦:免费为社会培养100万名优秀的大数据从业人员。每天早上4点起持续分享大数据、互联网+、O2O、工业4.0、微营销、移动互联网等领域的

第124讲视频网站地址:


51CTO


http://edu.51cto.com/lesson/id-77860.html

时间: 2024-12-10 18:58:54

第124讲:Hadoop集群管理之fsimage和edits工作机制内幕详解学习笔记的相关文章

Hadoop集群管理 fsimage和edits工作机制内幕

一. fsiamges文件通常是整个集群的元数据信息.每次对它的修改很好内存,io. 所以引入了edits 文件.存放每次对元数据修改的记录,并通过Secondary Namenode定期的合并. 二.过程 1.Secondary Namenode请求edits和fsimage合并. 2.Namenode停止对edits文件的修改,并生成edits.new文件,存储在合并期间出现的对元数据的修改 3.Secondary Namenode通过http get方式获取edits文件和fsimages

第131讲:Hadoop集群管理工具均衡器Balancer 实战详解学习笔记

第131讲:Hadoop集群管理工具均衡器Balancer 实战详解学习笔记 为什么需要均衡器呢? 随着集群运行,具体hdfs各个数据存储节点上的block可能分布得越来越不均衡,会导致运行作业时降低mapreduce的本地性. 分布式计算中精髓性的一名话:数据不动代码动.降低本地性对性能的影响是致使的,而且不能充分利用集群的资源,因为导致任务计算会集中在部分datanode上,更易导致故障. balancer是hadoop的一个守护进程.会将block从忙的datanode移动到闲的datan

第130讲:Hadoop集群管理工具DataBlockScanner 实战详解学习笔记

第130讲:Hadoop集群管理工具DataBlockScanner 实战详解学习笔记 DataBlockScanner在datanode上运行的block扫描器,定期检测当前datanode节点上所有的block,从而在客户端读到有问题的块前及时检测和修复有问题的块. 它有所有维护的块的列表,通过对块的列表依次的扫描,查看是否有校验问题或错误问题,它还有截流机制. 什么叫截流机制?DataBlockScanner扫描时会消耗大量的磁盘带宽,如果占用磁盘带宽太大,会有性能问题.所以它会只占用一小

Hadoop集群管理--保证集群平稳地运行

本篇介绍为了保证Hadoop集群平稳地运行,需要深入掌握的知识,以及一些管理监控的手段,日常维护的工作. HDFS 永久性数据结构 对于管理员来说,深入了解namenode,辅助namecode和datanode等HDFS组件如何在磁盘上组织永久性数据非常重要. 洞悉各文件的用法有助于进行故障诊断和故障检出. namenode的目录结构 namenode被格式化后,将在${dfs.namenode.name.dir}/current 目录下,产生如下的目录结构:VERSION.edits.fsi

Hadoop集群管理

1.简介 Hadoop是大数据通用处理平台,提供了分布式文件存储以及分布式离线并行计算,由于Hadoop的高拓展性,在使用Hadoop时通常以集群的方式运行,集群中的节点可达上千个,能够处理PB级的数据. Hadoop各个模块剖析:https://×××w.cnblogs.com/funyoung/p/9889719.html 2.Hadoop集群架构图 3.Hadoop集群搭建 3.1 修改配置 1.配置SSH以及hosts文件 由于在启动hdfs.yarn时都需要对用户的身份进行验证,且集群

Hadoop集群管理--保证集群平稳地执行

本篇介绍为了保证Hadoop集群平稳地执行.须要深入掌握的知识.以及一些管理监控的手段,日常维护的工作. HDFS 永久性数据结构 对于管理员来说.深入了解namenode,辅助namecode和datanode等HDFS组件怎样在磁盘上组织永久性数据很重要. 洞悉各文件的使用方法有助于进行故障诊断和故障检出. namenode的文件夹结构 namenode被格式化后,将在${dfs.namenode.name.dir}/current 文件夹下.产生例如以下的文件夹结构:VERSION.edi

高可用集群技术之corosync案例应用及pcs使用详解(二)

案例概述: 案例(一):使用ansible全自动化配置corosync集群环境 在生产环境中,经常遇到需要配置集群环境或相同配置的服务器,如果手工一台一台的去调试,这样会增加我们再运维过程中的工作量及错误的发生,我们应怎样去优化及减少错误的发生?下面我们通过一个案例实现自动化部署corosync环境: 准备工作: (1)将已经配置好的corosync配置文件做好模板存放 # mkdir -pv ansible/corosync/{conf,packages} # cp -p /etc/coros

第126讲:Hadoop集群管理之Datanode目录元数据结构详解学习笔记

namenode是管理hdfs文件系统的元数据 datanode是负责当前节点上的数据的管理,具体目录内容是在初始阶段自动创建的.在用hdfs dfs namenode format时并没有对datanode进行format. 在datanode中目录是按文件信息存储的. datanode存在于具体节点上的hadoop-2.6.0/dfs/data/current中. datanode的VERSION内容与namenode的VERSION内容相似. storageID:在namenode与dat

LVS集群--net模型、DR模型实例演示及详解

笔记附件下载 如笔记中有错误或不恰当的地方,请留言指正,以便更改