hdfs datanode decomission引发的block missing

最近在帮公司下线离线计算集群的机器，逐台decomiss，下到第四台机器时，cdh告警来了，丢失块大于集群的1%，算了一下集群有400多台，下线一台不应该告警，以为下线步骤有问题，点了中止下线，后来看了下其实步骤是没问题的，由于下线的机器配置比较好，所以确实这台机器上存储了集群1%以上的block，于是终止了datanode的decomission，但是集群还是出现了14个 missing block，按照常理，hdfs上的文件丢失副本只要不是所有副本全丢，过段时间hdfs都会把这些副本从其他节点copy一份，但是这些block随着时间的增加永远不会恢复。
确认了下线步骤没有问题以后，选择原来的datanode继续decomission，但是这一步会一直卡住，不会完成，看了下datanode的日志，确实是在移动数据，但是看节点的io很小，完全达不到正常下线节点时的io。于是这个节点先略过，下线其他节点，发现也出现同样情况，看来继续下线是不行了。
看了一下clouddera社区的一个issue，这好像是cdh的一个bug，上面cdh的官方人员说要把datanode删掉再重新加回来就可以下线了。
于是我把datanode停了，通过cdh监控按到节点上的block全部复制完以后，直接把datanode删除掉了，没有走正常decomission的流程。弄完之后去hdfs的监控看了下，这个节点直接没了，也不会存在僵死的节点。那就不用再安装回来重新decomission一遍了。用如此的方式，把下线节点的工作都完成之后。来好好查看一下这个问题。
丢块的提示是在hdfs的ui看到的

既然有丢块，那我们就用hdfs fsck /这个命令检查一下，检查的结果竟然没有丢失块，
于是用hdaoop dfsadmin -report 这个命令检查了一下，提示说丢失了14个block，检查的结果是和hdfs界面上的提示是相符的。
既然2个命令的结果不同，那就说明至少有一个是有问题的，所以2个命令都被假设有可能结果是不准确的。
后来通过了解还有一种可能就是文件在被写入的过程中client异常挂掉了，导致租约没有释放，写入没有正常关闭，也有可能造成块无法使用。
参考https://www.cnblogs.com/cssdongl/p/6700512.html
如果这种情况，可以通过hdfs debug recoverLease -path <path-of-the-file> -retries <retry times> 可以恢复文件租约。
但是我们只知道有block有问题，不知道这些块属于哪些文件，怎么验证我们的猜想呢
通过命令 hdfs fsck / -openforwrite |grep -i openforwrite |awk ‘{print $1}‘，把当前正在写入的文件找出来，写个循环脚本，对里面的文件进行恢复租约，
就可以对所有被正在写入的文件去恢复租约，脚本运行完之后，果然这些block missing消失了。

原文地址：https://blog.51cto.com/xiaolanlan/2472323

时间： 2024-11-10 11:03:18

hdfs datanode decomission引发的block missing

hdfs datanode decomission引发的block missing的相关文章

Datanode启动问题 FATAL org.apache.hadoop.hdfs.server.datanode.DataNode: Initialization failed for Block pool <registering>

hdfs datanode 启动失败

Hadoop学习笔记_7_分布式文件系统HDFS --DataNode体系结构

HDFS概述（1）————Block块大小设置

后端分布式系列：分布式存储－HDFS DataNode 设计实现解析

Hadoop之HDFS(DataNode) （面试开发重点）

HDFS概述（2）————Block块大小设置

hdfs datanode通过添加数据盘扩容

记一次HDFS的block corrupt事件