Hadoop--SecondNameNode导致服务启动时间超长

最近遇到个问题,每次重启Hadoop发现HDFS控制台都无法访问,并且查看nameNode的JOBTracker日志,如下

2015-02-05 09:36:18,935 ERROR org.apache.hadoop.security.UserGroupInformation: PriviledgedActionException as:hadoop cause:java.net.ConnectException: Call to haier002/10.255.254.3:9099 failed on connection exception: java.net.ConnectException: Connection refused

连接9099端口无法连接,开始以为是权限的问题,但是以前是好用的,后台定为到是服务9099端口没启动起来,经过一番查阅

secondNameNode讲解

http://blog.chinaunix.net/uid-20577907-id-3524135.html

SecondNameNode,会备份文件到edit.new文件中,然后重启的时候加载此文件,详细功能间上面网址

突然我就想到是不是由于edit.new文件太大导致加载缓慢,服务一直处于加载中。

结果查看edit.new 100+G,原来是这样。

下面edit.new的存放路径查找方法。

在nameNode服务器

查看Hadoop目录conf下,core-site.xml找到

<property>
  <name>dfs.data.dir</name>
  <value>/opt/liveEpg/hadoop/working/data</value>
  <description>Determines where on the local filesystem an DFS data node
  should store its blocks.  If this is a comma-delimited
  list of directories, then data will be stored in all named
  directories, typically on different devices.
  Directories that do not exist are ignored.
  </description>
</property>

在/opt/liveEpg/hadoop/working/data下我们 cd name/current

就可以看到edit.new文件,使用命令 du -sh ./* 我们就可以查看文件大小,将此文件删除掉即可。

[[email protected] current]$ du -sh ./*
106G	./edits
24M	./fsimage
4.0K	./fstime
4.0K	./VERSION
[[email protected] current]$ ls
edits  fsimage  fstime  VERSION
[[email protected] current]$ > edits 
时间: 2024-10-28 01:48:27

Hadoop--SecondNameNode导致服务启动时间超长的相关文章

[转载]hadoop SecondNamenode详解

SecondNamenode名字看起来很象是对第二个Namenode,要么与Namenode一样同时对外提供服务,要么相当于Namenode的HA.真正的了解了SecondNamenode以后,才发现事实并不是这样的.下面这段是Hadoop对SecondNamenode的准确定义: * The Secondary Namenode is a helper to the primary Namenode.* The Secondary is responsible for supporting p

离线部署 Cloudera Manager 5 和 CDH 5.12.1 及使用 CDH 部署 Hadoop 集群服务

Cloudera Manager Cloudera Manager 分为两个部分:CDH和CM. CDH是Cloudera Distribution Hadoop的简称,顾名思义,就是cloudera公司发布的Hadoop版本,封装了Apache Hadoop,提供Hadoop所有的服务,包括HDFS,YARN,MapReduce以及各种相关的components:HBase, Hive, ZooKeeper,Kafka等. CM是cloudera manager的简称,是CDH的管理平台,主要

解决ArcGIS中因SDE或数据库配置问题而导致服务荡掉的一种思路

1.背景 最近连续有两个项目现场出现了AGS服务荡掉的问题,一个是通州现场,一个是福州现场. 1.1通州现场的问题描述和解决思路 通州现场环境为ArcGIS9.2,使用IMS发布的地图服务,其问题表现为每隔两天左右,其地形图服务便会崩溃一次,重启地形图服务后地图可以正常显示. 因为IMS中地图的出图为动态出图,所以其出图时需要通过连接SDE,此问题的出现很可能是SDE中最大连接数的问题. 1.2福州现场的问题描述和解决思路 福州现场环境为ArcGIS10.0,使用的ArcGIS Server发布

少部分手机浏览器对于COOKIE支持不够导致服务端无法读取session的解决方案

相信大家都遇到过这样的问题,有手机浏览器的问题导致服务端SESSION读取不正常,目前在项目中的解决方法是采取H5手机本地存储唯一KEY解决的 代码片段 //定义json格式字符串 var userData = { name: "sankyu Name", account:"sankyu", level:1. disabled:true }; //存储userData数据 localStorage.setItem("userData",JSON.

实战CentOS系统部署Hadoop集群服务

导读 Hadoop是一个由Apache基金会所开发的分布式系统基础架构,Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS.HDFS有高容错性特点,并且设计用来部署在低廉的(low-cost)硬件上:而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序:HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming acces

hadoop开启webHDFS服务及测试

WebHDFS观念是基于HTTP操作,比如GET.PUT.POST和DELETE.像OPEN.GETFILESTATUS.LISTSTATUS的操作是使用HTTP GET,其它的像CREAT.MKDIRS.RENAME.SETPERMISSION是依赖于HTTP PUT类型. APPEND操作时基于HTTP POST类型,然而,DELETE是使用HTTP DELETE. 在配置开源日志系统fluentd过程中,fluentd就是利用webHDFS和HDFS进行通信,配置好久没有通,最后发现had

jenkins日志异常增大导致服务不可用的处理过程

今天发现mysql服务报28错误(28错误是磁盘空间不足导致),查看服务器的磁盘空间使用情况,发现tomcat目录下的日志文件catalina.out异常,报错如下: question:      [[email protected] type: TYPE_IGNORE index 0, class: CLASS_UNKNOWN index 0, name: ]        question:      [[email protected] type: TYPE_IGNORE index 0,

测试服务挂了导致服务不可用的排除方法及重启服务的分享

在测试过程中,经常遇到接口报502错误,导致测试阻滞,初步排查服务及重启服务的方法如下: 举例抓包中遇到如下报错 初步断定是服务问题,可能是服务挂了,导致访问报502,这里我们要去找这个服务部署在哪台服务器上,哪个项目里,我们可以先进入http://www.sqaproxy.com/ 查找这个域名对应的服务器 该域名对应的是10.168.105.33:10012 进入这台服务器,对应的tomcat目录内 通过端口,可以知道dfc-test.sqaproxy.com服务是部署在apache-tom

fastjson漏洞导致服务瘫痪,先别忙升级

1.背景  2019年9月5日,fastjson修复了当字符串中包含\x转义字符时可能引发OOM的问题.建议广大用户升级fastjson版本至少到1.2.60.  一个bug这么恐怖,竟然直接OOM,亲身体验下吧.测试代码如下: JSON.parse("[{\"a\":\"a\\x]");实验效果:4分钟 堆内存 占用上升达2G: fastjson_x_oom   这么牛掰,甲方爸爸高度重视,火速把自己负责的服务的fastjson版本升级到1.2.60,线