HDFS-异常大全-《每日五分钟搞定大数据》

点击看《每日五分钟搞定大数据》完整思维导图以及所有文章目录

问题1:Decomminssioning退役datanode(即删除节点)

1.配置exclude:

<name>dfs.hosts.exclude</name>
<value>/data/hadoop/excludes</value>  

在/data/hadoop/excludes文件添加要退役的节点ip(可同时退役多个,一个一行)

2.配置完后刷新节点

# $HADOOP_HOME/bin/hadoop dfsadmin  -refreshNodes  

3.查看各节点状态

# $HADOOP_HOME/bin/hadoop dfsadmin -report  

4.进度可在HDFS的50070可视化界面的Decommissioning处查看

Under replicated blocks : 有备份的blocks

Blocks with no live replicas : 没有存活备份的blocks(存备份的datanode下线了)

Under Replicated Blocks In files under construction : 备份数不够的blocks

5.另外有暴力的方式:

直接停datanode,hadoop的balance机制会自动将备份数不足3份(可配置)的blocks重新备份,注意这个方式只可以一次停一台机器,不然可能会出现missing blocks。

问题2:出现corupt block,missing blocks

1.原因:

某个节点的datanode的blocks丢失,且没有副本

查看blocks信息以及有问题的blocks:

hdfs fsck / 

2.解决办法:

1)若是你停止了datanode且数据还没丢失则重启即可

2)数据丢失且其他节点没有副本则只能将这些blocks清理

hadoop fsck -move|-delete

3)出现这种情况可以尝试hdfs dfs -get 下载有问题的文件,若报错则只能用1)2)的方式解决,若可以get下来将文件重新put上去也可解决问题。

问题3:出现invalidate block

1.原因:

当触发NAMENODE的双活切换(active-namenode给zk的心跳超时会发生)
Datanode增量汇报该block-datanode映射给 namenode(切换后的active namenode)的时候,edit log还没从JournalNode同步过来,这时在namenode中已经有了block-datanode映射(从刚才datanode的report中来),但是还没有block-file映射(从edits文件里面来),导致namenode认为这个块不属于任何文件,定义为该块为invalidate block。

这个在后台日志可以查到(后台standby没有完全变成activenamenode之前,会出现包含 invalidate block 的后台日志。)

edits文件(包含block-file映射): 对于HDFS文件来说,包含的信息有修改时间、访问时间、块大小和组成一个文件块信息等;而对于目录来说,包含的信息主要有修改时间、访问控制权限等信息

2.解决办法:

重新上报block信息

hdfs dfsadmin -triggerBlockReport datanode_ip:port

评论不能及时回复可直接加公众号提问或交流,知无不答,谢谢 。

原文地址:http://blog.51cto.com/9587671/2176123

时间: 2024-08-02 00:17:00

HDFS-异常大全-《每日五分钟搞定大数据》的相关文章

一篇文章搞懂DataSet、DataFrame、RDD-《每日五分钟搞定大数据》

1. 三者共性: 1.RDD.DataFrame.Dataset全都是spark平台下的分布式弹性数据集,为处理超大型数据提供便利 2.三者都有惰性机制,执行trainform操作时不会立即执行,遇到Action才会执行 3.三者都会根据spark的内存情况自动缓存运算,这样即使数据量很大,也不用担心会内存溢出 4.三者都有partition的概念,如 var predata=data.repartition(24).mapPartitions{       PartLine => {     

zookeeper-非常重要的zab协议-《每日五分钟搞定大数据》

上篇文章paxos与一致性说到zab是在paxos的基础上做了重要的改造,解决了一系列的问题,这一篇我们就来说下这个zab. zab协议的全称是ZooKeeper Atomic Broadcast即zookeeper"原子""广播"协议.它规定了两种模式:崩溃恢复和消息广播 恢复模式 什么时候进入? 当整个服务框架在启动过程中 当Leader服务器出现网络中断崩溃退出与重启等异常情况 当有新的服务器加入到集群中且集群处于正常状态(广播模式),新服会与leader进行

zookeeper-1.操作与应用场景-《每日五分钟搞定大数据》

Zookeeper作为一个分布式协调系统提供了一项基本服务:分布式锁服务,分布式锁是分布式协调技术实现的核心内容.像配置管理.任务分发.组服务.分布式消息队列.分布式通知/协调等,这些应用实际上都是基于这项基础服务由用户自己摸索出来的. 1.Zookeeper在大数据系统中的常见应用 zookeeper作为分布式协调系统在大数据领域非常常用,它是一个很好的中心化管理工具.下面举几个常见的应用场景. 1.1.HDFS/YARN HA(分布式锁的应用):Master挂掉之后迅速切换到slave节点.

YARN-异常大全-《每日五分钟搞定大数据》

#问题描述:NodeManager1 cpu负载飙高,进程还在但是不再向ResourceManager发送心跳,不断重复下文2的动作.心跳停止一段时间后会重连上RM但是cpu仍然很高,再过一段时间心跳再停,一直循环. #节点管理器的日志解析1.localizing:容器开始从HDFS下载资源,HDFS文件的状态从INIT变成下载. 2018年8月25日16:15:38592信息org.apache.hadoop .yarn.server.nodemanager.containermanager.

redis- info调优入门-《每日五分钟搞定大数据》

本文根据redis的info命令查看redis的内存使用情况以及state状态,来观察redis的运行情况以及需要作出的相应优化. info 1.memory used_memory:13409011624 #used_memory=实际缓存占用的内存+Redis自身运行所占用的内存(如元数据.lua).                        #这个值是由Redis使用内存分配器分配的内存,不包括内存碎片浪费的内存. used_memory_rss:13740019719 #从操作系统上

redis- 使用info轻松调优-《每日五分钟搞定大数据》

本文根据redis的info命令查看redis的内存使用情况以及state状态,来观察redis的运行情况以及需要作出的相应优化. info 1.memory used_memory:13409011624 #used_memory=实际缓存占用的内存+Redis自身运行所占用的内存(如元数据.lua).                        #这个值是由Redis使用内存分配器分配的内存,不包括内存碎片浪费的内存. used_memory_rss:13740019719 #从操作系统上

30天搞定大数据爬虫项目

详情请交流  QQ  709639943 00.30天搞定大数据爬虫项目 00.零基础实战机器学学习 00.企业级实战 Spark离线和实时电影推荐系统 00.三大项目掌握Storm流计算 00.道路交通实时流量监控预测系统 00.基于Spark2.x新闻网大数据实时分析可视化系统 00.小码哥Java大神班五期 任小龙SSM Spring5 Mybatis SpringMVC 00.Python玩转人工智能框架 TensorFlow 00.web开发级mysql颠覆实战课程 00.微信小游戏入

运维日常:五分钟搞定PHP的redis问题

一.前言 1.需求 2.解决LNMP环境中的PHP缺少redis扩展包,导致访问页面报错500,处理问题,安装PHP扩展功能redis. 下面记录整个过程,如果不想看,而只想在最短的时间内搞定这个问题,请直接翻到最后,使用脚本. 二.安装 1.下载扩展包 [[email protected] source]# git clone https://github.com/nicolasff/phpredis Cloning into 'phpredis'... remote: Enumerating

30天搞定大数据爬虫项目,数据爬虫、全文检索、数据可视化、爬虫项目监控

好,开始今天的文章. 今天主要是来说一下怎么可视化来监控你的爬虫的状态. 相信大家在跑爬虫的过程中,也会好奇自己养的爬虫一分钟可以爬多少页面,多大的数据量,当然查询的方式多种多样.今天我来讲一种可视化的方法. 关于爬虫数据在mongodb里的版本我写了一个可以热更新配置的版本,即添加了新的爬虫配置以后,不用重启程序,即可获取刚刚添加的爬虫的状态数据. 1.成品图 这个是监控服务器网速的最后成果,显示的是下载与上传的网速,单位为M.爬虫的原理都是一样的,只不过将数据存到InfluxDB的方式不一样