bigdata_hadoop_namenode手动重启错误解决分析

现象: 集群大面积异常,通过ambari启动不起来。逐一排查,顺序 hdfs -> mapreduce->yarn->hive -other

hdfs下发现namenode ,datanode启动不起来

namenode报错如下 【namenode.NameNode: Failed to start namenode. java.io.IOException: Gap in tra】

解决方案:

  step1: /usr/hdp/current/hadoop-hdfs-namenode/bin/hdfs  namenode 让错误报出来

  step2:    namenode 格式化 : /usr/hdp/current/hadoop-hdfs-namenode/bin/hdfs  namenode -format

step3 :比对  clusterId  :  master   namenode下的  current/version  和  datanode下的 current/version   (多台机器) ,手动修改 datanode下的

      clusterId:  eg:[CID-e341356d-7657-48eb-b22e-3ab1f6771cd1]

   /mnt/hadoop/hdfs/namenode/current/VERSION

   /mnt/hadoop/hdfs/data/current/VERSION

   step4: ambari上手动重启  namenode ,datanode

----------------分割线---------

常用命令,和手动重启

【设置任务类型:】

  set hive.execution.engine=tez;

【Hive debug模式】

  hive --hiveconf hive.root.logger=DEBUG,console

【yarn上杀死任务】

yarn  application -kill application_1478856791630_0002

【resourcemanager手动启停】

/usr/hdp/current/hadoop-yarn-resourcemanager/sbin/yarn-daemon.sh  stop resourcemanager

/usr/hdp/current/hadoop-yarn-resourcemanager/sbin/yarn-daemon.sh  start resourcemanager

【nodemanager手动启停】

/usr/hdp/current/hadoop-yarn-nodemanager/sbin/yarn-daemon.sh  stop nodemanager

/usr/hdp/current/hadoop-yarn-nodemanager/sbin/yarn-daemon.sh  start nodemanager

【yarn historyserver 重启】

/usr/hdp/current/hadoop-mapreduce-historyserver/sbin/mr-jobhistory-daemon.sh stop historyserver

/usr/hdp/current/hadoop-mapreduce-historyserver/sbin/mr-jobhistory-daemon.sh start historyserver

【yarn  ha状态互转】

yarn rmadmin -getServiceState rm1

yarn rmadmin -transitionToStandby rm1 --forcemanual

yarn rmadmin -transitionToActive rm2 --forcemanual

【zookeper手动起停】

/usr/hdp/current/zookeeper-server/bin/zkServer.sh stop

/usr/hdp/current/zookeeper-server/bin/zkServer.sh start

【namenode手动启停】

/usr/hdp/current/hadoop-hdfs-namenode/bin/hdfs namenode

【datanode 手动启停】

/usr/hdp/current/hadoop-hdfs-datanode/bin/hdfs datanode

时间: 2024-10-05 19:33:42

bigdata_hadoop_namenode手动重启错误解决分析的相关文章

python爬虫优化和错误日志分析

发现问题 在爬虫下载过程中,执行一段时间后都会异常终止,下次必须kill掉进程重新运行 ,看能否优化并减少手动操作 错误日志分析 收集了nohup.out文件,发现主要错误是的数组下标越界,推测可能的问题为: 1)网络不稳定,http请求不通. 2)网络请求成功,但是html表单解析失败. 3)登录的cookie过期 优化思路 在所有有网络请求的地方,都加上了返回码是不是200的判断,然后html表单解析的地方加上数组长度判断,异常处理等 源码如下 import socket import ti

Android ROM开发(二)——ROM架构以及Updater-Script脚本分析,常见的Status错误解决的方法

Android ROM开发(二)--ROM架构以及Updater-Script脚本分析,常见的Status错误解决的方法 怪自己二了.写好的不小心弄没了,如今仅仅好又一次写一些了.上篇简单的配置了一下环境.这里呢,就来讲一下相关的仅仅是点 我们先下载一个ROM.随便下,原理都是差点儿相同的,这里我就下载一个红米Note的MIUI稳定版 1.ROM结构 ROM依据厂商的定制可能有所不同,可是大体是不变的 data 内置一些软件 META-INF 脚本文件 update-binary 二进制文件 u

mysql Access denied for user [email protected]错误解决方法总结(转)

mysql Access denied for user [email protected]错误解决方法总结(转) mysql Access denied for user \'root\'@\'localhost\'”解决办法总结,下面我们对常见的出现的一些错误代码进行分析并给出解决办法,有需要的朋友可参考一下. 错误代码 1045 Access denied for user 'root'@'localhost' (using password:YES) 解决办法是重新设置root用户密码,

Entity Framework 数据并发访问错误原因分析与系统架构优化

本文主要记录近两天针对项目发生的数据访问问题的分析研究过程与系统架构优化,我喜欢说通俗的白话,高手轻拍 1. 发现问题 系统新模块上线后,使用频率较高,故在实际使用和后期的问题重现测试中,产生了一下系列的数据访问错误 错误是比较常见的错误 2. 分析问题 系统的架构为前端.业务层与数据层三层架构,采用Entity Framework 3.5作为数据处理技术,采用shared context per request模式,参照的是codeplex上的一个示例.示例地址(此文通俗易懂,代码结构也很清晰

PHPWAMP自启异常,服务器重启后Apache等服务不会自动重启的原因分析

在使用"PHPWAMP自动任务"时,不少学生遇到如下问题: "phpwamp绿色集成环境重启动电脑(服务器)后,不会自动启动网站服务" (如果是其他环境或是自己搭建时遇到此问题,也是可以用此法解决) 此文章内容符合: 为什么网站服务由手动变成自动后还是无法重启? 为什么我把服务设置成自动后,开机又变回手动了? 为什么服务器(电脑)重启后服务不会自动跟着重启? windows服务器重启后网站服务不会自动重启的原因分析. 为什么服务设置成自动后,重启动服务器(电脑)服务

NFS网络文件系统服务配置、验证及错误解决

NFS网络文件系统服务配置.验证及错误解决 前期准备: 1.至少准备一台服务器(nfs-server)和一台客户机(nfs-client).老表测试用的服务器端用的系统是ubuntu,客户机用的是CentOS 6.5,所以有些地方操作不一样. 2.给两台测试机都安装NFS服务和rpc服务.(一般安装NFS服务会自动安装rpc) 安装: ubuntu:sudo apt-get install nfs-kernel-server CentOS:yum groupinstall "NFS file s

GoldenGate 1403错误解决方法

OGG  oracle goldengate 1403错误解决方法 1. 错误描述WARNING OGG-01154 Oracle GoldenGate Delivery for Oracle, repyxb.prm: SQL error 1403 mapping SGPM.P_SMS_SEND to SGPM.P_SMS_SEND.WARNING OGG-01003 Oracle GoldenGate Delivery for Oracle, repyxb.prm:  Repositionin

ORA-27100 shared memory realm already exists错误解决方法

环境:win 2003   + oracle 10g win 2003服务器物理内存4G oracle10g SGA             1504M 事故背景: 调整SGA大小,因为OS的内存只有4G,建议SGA的大小不要超过60%,我调整为2G SQL> alter systemset sga_max_size=2000m scope=spfile; 重启数据库报错ORA-27100 shared memory realm already exists 分析原因:对于32位机器ORACLE

weblogic的BEA-000438错误解决

下图是启动weblogic时的报错,集群的每个节点启动都报相同的错误:(据说这个错会直接浪费应用服务器30%的性能) 从weblogic console看下JDK版本:1.5.0_12 从服务器看自己安装的JDK版本:1.6.0_22 综上两点初步分析:此错误可能是weblogic自带的JDK版本与自己安装的JDK版本不一致引起的! 解决思路:需要修改commENV.sh或setDomainEnv.sh的配置 因为服务器是linux的,vi修改commENV.sh的Linux部分:(如图所示,添