对hadoop namenode -format执行过程的探究

引言

本文出于一个疑问：hadoop
namenode -format到底在我的linux系统里面做了些什么？

步骤

第1个文件bin/hadoop

Hadoop脚本位于hadoop根目录下的bin目录下，

打开之后阅读源代码：

在这里$1即为参数namenode

将COMMAND赋值为$1，那么COMMAND=namenode

条件判断语句的执行流到达#hdfs下的一行：

因为这一行判断COMMAND是否等于namenode
secondarynamenode等之一；

接着往下读：

判断"${HADOOP_HDFS_HOME}"/bin/hdfs存在，且为一个文件，那么就会执行

${HADOOP_HDFS_HOME}/bin/hdfs
${COMMAND/dfsgroups/groups} $@

在这里${HADOOP_HDFS_HOME}/bin/hdfs
就是根目录下的bin目录下的hdfs脚本，${COMMAND/dfsgroups/groups}就是namenode，而$@则是-format；

第2个文件bin/hdfs

注意文件中间：

设置了2个变量CLASS
以及HADOOP_OTS

和文件末尾：

通过使用echo指令，可以查看这些参数：

/usr/jdk1.8.0_51/bin/java

namenode

-Xmx1000m

-Djava.library.path=/usr/local/hadoop-2.6.0/lib
-Djava.net.preferIPv4Stack=true
-Dhadoop.log.dir=/usr/local/hadoop-2.6.0/logs
-Dhadoop.log.file=hadoop.log
-Dhadoop.home.dir=/usr/local/hadoop-2.6.0 -Dhadoop.id.str=hadoop
-Dhadoop.root.logger=INFO,console
-Dhadoop.policy.file=hadoop-policy.xml
-Djava.net.preferIPv4Stack=true -Djava.net.preferIPv4Stack=true
-Dhadoop.log.dir=/usr/local/hadoop-2.6.0/logs
-Dhadoop.log.file=hadoop.log
-Dhadoop.home.dir=/usr/local/hadoop-2.6.0 -Dhadoop.id.str=hadoop
-Dhadoop.root.logger=INFO,console
-Dhadoop.policy.file=hadoop-policy.xml
-Djava.net.preferIPv4Stack=true -Dhadoop.security.logger=INFO,RFAS
-Dhdfs.audit.logger=INFO,NullAppender
-Dhadoop.security.logger=INFO,RFAS
-Dhdfs.audit.logger=INFO,NullAppender
-Dhadoop.security.logger=INFO,NullAppender

org.apache.hadoop.hdfs.server.namenode.NameNode

-format

这是一个完整的java指令，

其中-D<名称>=<值>
设置系统属性,Xmx1000m设置JVM最大可用内存为1GB；

这个不是重点，重点在后面：CLASS为

org.apache.hadoop.hdfs.server.namenode.NameNode

也就是说java要通过一系列的选项和参数运行

org.apache.hadoop.hdfs.server.namenode.NameNode.class

接下来就是查看这个CLASS的源代码了

第3个文件NameNode.java

这个文件位于

hadoop-2.6.0-src/hadoop-hdfs-project/hadoop-hdfs/src/main/java/org/apache/hadoop/hdfs/server/namenode/

其中hadoop-2.6.0-src是hadoop2.6.0的源码，可以直接在apache
hadoop网站上下载，然后解压就可以了。

首先，找到main函数：

位于源码第1497行，

没错,就是这样一段短小精悍的代码!

做了什么呢?

第一部分,if条件语句暂时无视;

第二部分,try
-catch模块,

StringUtils.startupShutdownMessage(NameNode.class,
argv, LOG);

根据名字分析,这个是用来显示Message的.先无视.

重点在这一行代码:

调用函数createNameNode(a,b);

找这个函数,在1365行:

返回类型为NameNode的静态成员函数.

依次做了这样几件事情:

1.写LOG

2.创建一个HdfsConfiguration对象

3.创建一个StartupOption类的对象

4.设置StartupOption

5.switch-case

在这个条件语句模块里面找到FORMAT,

执行format函数,意思就是这个函数用来格式化namenode的了?

在903行,找到了:

跳到真正执行format指令的那一步

使用了2个对象fsn和fsImage,

留意在932行,

FSImage fsImage =
new FSImage(conf, nameDirsToFormat, editDirsToFormat) ;

现在就需要弄明白FSImage是怎样的一个类,以及format方法实现了怎样的功能.

说明:以下步骤均在bluefish工具的协助下进行

第138行:

对应运行hadoop
namenode -format时的log:

工作是由”storage.format(ns);”这行代码完成的

打开NNStorage.java,找到format(ns)方法;

打开Storage.java,找到clearDirectory()方法:

接下来就是FileUtil.fullyDelete(curDir)了.

在源码中没有找到fs.FileUtil,在hadoop
API中查找到了

public static void
fullyDelete(FileSystem fs,Path dir);

这样就删除了一个目录树了,运行时,dir显示为:

/tmp/hadoop-hadoop/dfs/name

经检查发现这个目录依然存在,并且目录下存在文件:

为什么会出现这种情况?

而且,在hadoop2.6.0的源代码中为什么找不到fs.FileUtil?

这些问题有待解决.

尽管如此,在format前后,对比文件占用容量大小:

Namenode Format前：

NameNode Format后：

可以看出，在执行了hadoop
namenode -format之后，name目录占用的空间从1.1M
降低至24K

总结

本文的初衷是摸索出一条命令执行的流程，从而加深对hadoop系统的认识。

不过，这些步骤只是做了一点皮毛的功夫，并没能触及hadoop最核心的部分，不管是作为一个分布式系统也好，还是一个java开源项目也好。

尽管如此，我们可以以此为切入点，如同滚雪球一样一点一点加深对这个生态系统的把握。

时间： 2024-10-11 06:10:34

对hadoop namenode -format执行过程的探究的相关文章

HDFS_1.2.1_0: ./bin/hadoop namenode -format

又回来看HDFS 1.2.1 版本了,首先要执行hadoop namenode -format --- 执行脚本./hadoop namenode -format 后,脚本最后执行的核心部分是: exec "$JAVA" -Dproc_$COMMAND $JAVA_HEAP_MAX $HADOOP_OPTS -classpath "$CLASSPATH" $CLASS "[email protected]" 打印出内容就是 /usr/java/j

hadoop namenode -format Couldn'tload main class "-Djava.library.path=.home.hadoop.hadoop-2.5.2.lib"

<pre name="code" class="sql">[[email protected] ~]$ hadoop namenode -format DEPRECATED: Use of this script to execute hdfs command is deprecated. Instead use the hdfs command for it. Error: Could not find or load main class "

"hadoop namenode -format"命令的作用和影响的文件

在hadoop部署好了之后是不能马上应用的,而是对配置的文件系统进行格式化.这里的文件系统,在物理上还未存在,或者用网络磁盘来描述更加合适:还有格式化,并不是传统意义上的磁盘清理,而是一些清除与准备工作. namemode是hdfs系统中的管理者,它负责管理文件系统的命名空间,维护文件系统的文件树以及所有的文件和目录的元数据,元数据的格式如下: 同时为了保证操作的可靠性,还引入了操作日志,所以,namenode会持久化这些数据到本地.对于第一次使用HDFS时,需要执行-format命令才能正常使

NameNode跟secondarynamenode的执行过程

一.NameNode详解文件包括: fsimage:元数据镜像文件.存储某一时段NameNode内存元数据信息. edits:操作日志文件. fstime:保存最近一次checkpoint的时间以上这些文件是保存在linux的文件系统中. /data/hadoop/hdfs/name [[email protected] name]$ ls current image in_use.lock previous.checkpoint [[email protected] name]$ c

吴超老师课程---hadoop的分布式安装过程

1.hadoop的分布式安装过程 1.1 分布结构主节点(1个,是hadoop0):NameNode.JobTracker.SecondaryNameNode 从节点(2个,是hadoop1.hadoop2):DataNode.TaskTracker 1.2 各节点重新产生ssh加密文件 1.3 编辑各个节点的/etc/hosts,在该文件中含有所有节点的ip与hostname的映射信息 1.4 两两节点之间的SSH免密码登陆 ss

hadoop的分布式安装过程

1.hadoop的分布式安装过程 1.1 分布结构主节点(1个,是hadoop0):NameNode.JobTracker.SecondaryNameNode 从节点(2个,是hadoop1.hadoop2):DataNode.TaskTracker 1.2 各节点重新产生ssh加密文件 1.3 编辑各个节点的/etc/hosts,在该文件中含有所有节点的ip与hostname的映射信息 1.4 两两节点之间的SSH免密码登陆 ssh-copy-id -i hadoop1 s

Hadoop Namenode不能启动

自己在虚拟机上建立伪分布环境,第一天还一切正常,后来发现每次重新开机以后都不能正常启动,在start-dfs.sh之后jps一下发现namenode不能正常启动,按提示找到logs目录下namenode的启动log发现如下异常. [email protected]:~$ jps 5096 ResourceManager 5227 NodeManager 5559 Jps 4742 DataNode 4922 SecondaryNameNode org.apache.hadoop.hdfs.ser

Hadoop namenode无法启动

最近遇到了一个问题,执行start-all.sh的时候发现JPS一下namenode没有启动每次开机都得重新格式化一下namenode才可以其实问题就出在tmp文件,默认的tmp文件每次重新开机会被清空,与此同时namenode的格式化信息就会丢失于是我们得重新配置一个tmp文件目录首先在home目录下建立一个hadoop_tmp目录 sudo mkdir ~/hadoop_tmp 然后修

HDFS-2.7.0系列3: hdfs namenode -format

上一节,讲过了,执行hadoop namenode -format后实际上是执行 /root/hadoop-2.7.0-bin/bin/hdfs namenode -format 下面就来分析这个脚本 --- bin=`which $0` bin=`dirname ${bin}` bin=`cd "$bin" > /dev/null; pwd` 打印 bin=/root/hadoop-2.7.0-bin/bin --- DEFAULT_LIBEXEC_DIR="$bi

猜你喜欢

HDU 6156 Palindrome Function 数位DP

题目链接: http://acm.hdu.edu.cn/showproblem.php?pid=6156 题目描述: 求L~R所有的数的l~r进制的f(x), f(x) = 当前进制如果回文串, f ...

MSP430入门程序之(01)时钟与延时

//芯片MSP430F149#include "io430.h"//定义使用主频#define CPU_F ((double)8000000) //定义延时函数#define de ...

什么是拖库，撞库？

什么是撞库? 撞库是一个看起来很专业,但实际理解起来却很简单的名词.它其实就是黑客无聊的"恶作剧".黑客首先会通过收集互联网已泄露的用户+密码信息,生成对应的字典表,然后再用字典中 ...

在本地设置 http-proxy 代理 (前后端分离)

1. 利用package.json 安装nodejs,创建package.json文件:内容如下 "dependencies": { "http-proxy": ...

加减法画面感的优化

1 #include "stdafx.h" 2 #include "stdio.h" 3 #include "stdlib.h" 4 #in ...

CKRule业务规则管理系统部署说明

1. 程序包说明软件是使用WinForm开发的,包含服务端和客户端,服务端部署在IIS上面,客户端可以在已经安装.Net4.0的windows上面运行. 1.1. 服务端程序包 CKBrmsS ...

jsp-->self-defined tag with function tag in taglib

一.WEB-INFO下的*.tld自定义标签描述文件PAFTaglib.tld <?xml version="1.0" encoding="UTF-8" ...

JS设置cookie、读取cookie、删除cookie

Js操作Cookie总结(设置,读取,删除),工作中经常会用到的哦!下面是详细代码,如有错误,请留言指正! JavaScript是运行在客户端的脚本,因此一般是不能够设置Session的,因为Sess ...

求Sn=a+aa+aaa+…+aa…aaa（有n个a）之值，其中a是一个数字，为2。例如，n=5时=2+22+222+2222+22222，n由键盘输入。

题目描述输入 n 输出 Sn的值样例输入 5 样例输出 24690 程序:#include<stdio.h>int main(){ int i,n,s1=1,t=0,sn=0; ...

apache+多tomcat集群

一台服务器安装apache+tomcat 另一台安装tomcat(192.168.1.200) 1 安装软件安装基本配置apache+tomcat见上一篇 2 配置两台服务器的tomcat , ...

Java桥模式（Bridge模式）

Bridge定义:将抽象和行为划分开来,各自独立,但能动态的结合. 为什么使用桥模式通常,当一个抽象类或接口有多个具体实现(concrete subclass),这些concrete之间关系可能有以 ...

记录struts2 json plugin 对字符串数组类型的处理

当前项目中,一开发人员在action中定义了一个字符串数组类型的属性,需要以json格式返回到页面(先不论这种设计是否最优), 结果在做页面调试时发现总是无法在ajax的success方法中获取到该属 ...

端口的含义

在网络技术中,端口(Port)大致有两种意思:一是物理意义上的端口,比如,ADSL Modem.集线器.交换机.路由器用于连接其他网络设备的接口,如RJ-45端口.SC端口等等.二是逻辑意义上的端口, ...

JAVA代码规范

1. 介绍为统一Java项目编码规范,提高可读性,特制定本规范. 本规范同样适用于Android项目. 本规范基于Google Java Style,主要的区别如下: 保留了原有规范的4空格缩进和1 ...

aardio控件综合练习--网卡管理小工具

1 import win.ui; 2 import inet.adapter; 3 import inet.conn; 4 /*DSG{{*/ 5 winForm = ..win.form(text= ...

SQL Saturday活动再起

SQL Saturday活动再起时间:2015年05月09日(星期六) 地点:港汇2座10楼(10.073) 我们相约港汇2座10楼(10.073),SQL PASS上海分会的SQLSaturday ...

Day27~29-类

1 新式类和经典类查看父类信息的方法类名.__bases__ 在Python3中默认是新式类, 不管写不写继承 Python2中默认是经典类, 不继承任何, 父类为空 >>> c ...

Java并发专题带返回结果的批量任务执行

转载请标明出处:http://blog.csdn.net/lmj623565791/article/details/27250059 一般情况下,我们使用Runnable作为基本的任务表示形式,但是R ...

开发shell脚本检查Nginx实战分享

一.本脚本实现功能: 1.自动检查Nginx下面的代理节点是否正常 2.通过页面显示状态,有问题的节点给出页面报警及声音报警. 3.增加新节点,页面自动载入新节点,无需修改程序. 二.守护检查脚本 [ ...

C#解析Json格式数据小结

最近,遇到了一些不同的Json格式的数据,需要做不同处理才能转化为想要得到的结果,这里总结一下. 第一种形式:status中是{}形式 string json = @"{'name':'语淺 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.056 s.