hadoop中 namenode的持久化

一、为什么namenode持久化

　　namenode通过内存存储hdfs集群的元数据（目录结构文件信息块对应关系），如果内存出现问题，那么会数据丢失，需要通过持久化，把内存中的数据定期的存储在硬盘中，进而保证namenode的数据安全。

二、持久化的原理

1、FSImage (某一时刻 namenode镜像数据)

　　　　默认存储位置

　　　　/opt/install/hadoop-2.5.2/data/tmp/dfs/name

　　2、EditsLog （某一时刻后的，写日志操作）

　　　　FSImage 会在集群格式化时，生成空的FSImage ，后续用户的操作都会写入到EditsLog中

　　　　每一次重启namenode时，把EditsLog和FSImage的数据在内存中合并，并生成一哥新的EditsLog，

　　　　时间没到制定时间点或没有到事务数 FSImage时不会和EditsLog合并

　　　　时间到制定时间点或到事务数 FSImage时会和EditsLog合并，生成新的FSImage（有数据）和新的EditsLog

　　相关配置可以打开http://hadoop.apache.org/docs/r2.5.2/

　　　　　　　　配置这些文件要在

　　　　　　　　　　cd /opt/install/hadoop-2.5.2/etc/hadoop

　　　　　　　　找到hdfs-site.xml文件添加

<property>
<name>dfs.namenode.name.dir </name>
<value>/opt/suns/fsimage</value>
</property>
<property>
<name>dfs.namenode.edits.dir </name>
<value>/opt/suns/editslog</value>
</property>

安全模式 safemode

namenode从新启动时，通过安全模式保证EditsLog和FSImage的合并，在这个过程中，只允许client进行读操作，而不能进行写操作。

原文地址：https://www.cnblogs.com/zhu-lin-11211/p/12115726.html

时间： 2024-11-14 13:17:23

hadoop中 namenode的持久化的相关文章

Hadoop介绍-4.Hadoop中NameNode、DataNode、Secondary、NameNode、JobTracker TaskTracker

Hadoop是一个能够对大量数据进行分布式处理的软体框架,实现了Google的MapReduce编程模型和框架,能够把应用程式分割成许多的小的工作单元,并把这些单元放到任何集群节点上执行.在MapReduce中,一个准备提交执行的应用程式称为「作业(job)」,而从一个作业划分出得.运行于各个计算节点的工作单元称为「任务(task)」.此外,Hadoop提供的分布式文件系统(HDFS)主要负责各个节点的数据存储,并实现了高吞吐率的数据读写. 在分布式存储和分布式计算方面,Hadoop都是用

Hadoop中NameNode、DataNode和Client三者之间的通信方式是什么？怎样进行合作？

一直没有重视三者之间的通信问题,在此整理一下提问:datanode之间有没有交互?Hadoop安装时ssh如何配置? 1.背景知识: 在Hadoop系统中,master/slaves/client的对应关系是:master---namenode:slaves---datanode:client---dfsclient:通信方式简单地讲:client和namenode之间是通过rpc通信:datanode和namenode之间是通过rpc通信:client和datanode之间是通过简单的sock

hadoop中NameNode、DataNode和Client三者之间协作关系及通信方式介绍

1)NameNode.DataNode和Client NameNode可以看作是分布式文件系统中的管理者,主要负责管理文件系统的命名空间.集群配置信息和存储块的复制等.NameNode会将文件系统的Meta-data存储在内存中,这些信息主要包括了文件信息.每一个文件对应的文件块的信息和每一个文件块在DataNode的信息等. DataNode是文件存储的基本单元,它将Block存储在本地文件系统中,保存了Block的Meta-data,同时周期性地将所有存在的Block信息发送给NameNod

hadoop中HDFS的NameNode原理

1. hadoop中HDFS的NameNode原理 1.1. 组成包括HDFS(分布式文件系统),YARN(分布式资源调度系统),MapReduce(分布式计算系统),等等. 1.2. HDFS架构原理比如现在要上传一个1T的大文件,提交给HDFS的Active NameNode(用以存放文件目录树,权限设置,副本数设置等),它会在指定目录下创建一个新的文件对象,比如access_20180101.log 至于具体数据,它会将它拆分后进行分布式存储,分散在各个DataNode节点,且默认都会

hadoop中常见元素的解释

secondarynamenode 图: secondarynamenode根据文件的的大小对namenode的编辑日志和镜像日志进行合并. 光从字面上来理解,很容易让一些初学者先入为主的认为:SecondaryNameNode(snn)就是NameNode(nn)的热备进程.其实不是.snn是HDFS架构中的一个组成部分,但是经常由于名字而被人误解它真正的用途,其实它真正的用途,是用来保存namenode中对HDFS metadata的信息的备份,并减少namenode重启的时间.对于ha

深度分析如何在Hadoop中控制Map的数量

深度分析如何在Hadoop中控制Map的数量 [email protected] 很多文档中描述,Mapper的数量在默认情况下不可直接控制干预,因为Mapper的数量由输入的大小和个数决定.在默认情况下,最终input 占据了多少block,就应该启动多少个Mapper.如果输入的文件数量巨大,但是每个文件的size都小于HDFS的blockSize,那么会造成启动的Mapper等于文件的数量(即每个文件都占据了一个block),那么很可能造成启动的Mapper数量超出限制而导致崩溃.这些逻

Hadoop中两表JOIN的处理方法(转)

1. 概述在传统数据库(如:MYSQL)中,JOIN操作是非常常见且非常耗时的.而在HADOOP中进行JOIN操作,同样常见且耗时,由于Hadoop的独特设计思想,当进行JOIN操作时,有一些特殊的技巧. 本文首先介绍了Hadoop上通常的JOIN实现方法,然后给出了几种针对不同输入数据集的优化方法. 2. 常见的join方法介绍假设要进行join的数据分别来自File1和File2. 2.1 reduce side join reduce side join是一种最简单的join方式,其主

Zookeeper 在Hadoop中的应用

Zookeeper 简介 Zookeeper 分布式服务框架是 Apache Hadoop 的一个子项目,它主要是用来解决分布式应用中经常遇到的一些数据管理问题,如:统一命名服务.状态同步服务.集群管理.分布式应用配置项的管理等. Hadoop简介 Hadoop是一个由Apache基金会所开发的分布式系统基础架构. 用户可以在不了解分布式底层细节的情况下,开发分布式程序.充分利用集群的威力进行高速运算和存储. Hadoop主要包含两部分:HDFS,YARN. HDFS有高容错性的特点,并且设计用

浅谈hadoop中mapreduce的文件分发

最近在做数据分析的时候,需要在mapreduce中调用c语言写的接口,此时就需要把动态链接库so文件分发到hadoop的各个节点上,原来想自己来做这个分发,大概过程就是把so文件放在hdfs上面,然后做mapreduce的时候把so文件从hdfs下载到本地,但查询资料后发现hadoop有相应的组件来帮助我们完成这个操作,这个组件就是DistributedCache,分布式缓存,运用这个东西可以做到第三方文件的分发和缓存功能,下面详解: 如果我们需要在map之间共享一些数据,如果信息量不大,我们可