hadoop运维案例分享

1、Namenode岩机处理:重启集群无法恢复的情况下

一般NameNode情况下是不会岩机的，但如果出现违规操作，如突然断电等就会造成NameNode镜像文件的损坏，重启就起不来了。hdoop1的一个设计不好的地方就是单机依赖，对NameNode这台机器依赖太高，一旦NameNode出现岩机整个集群就会瘫了！

注：NameNode镜像文件盒secondnamenode镜像存放在哪里是有配置文件决定的

首先删除掉NameNode下的镜像文件

复制namesecondary文件中的所有内容到NameNode节点下的那么文件中重启

2、坏block处理

现象：

Namenode日志：The reported blocks 211655 needs additional 4687 blocks to reach the threshold 0.9990 of total blocks 216559.

Safe mode will be turned off automatically.

状态始终在safe mode模式

hadoop本身自带坏块的的修复功能，介于修复时间过于缓慢，一天修复20个，所以一般是采用直接删除坏块的方法

hadoop fsck / -delete 删除坏块

3、单机存储均衡

增加一个磁盘后的配置：

在hdfs-site.xml中

</property>

value:第一个磁盘，第二个磁盘

hadoop本身自带一个blancer的机制，但是它只能检测每一个节点的磁盘使用率，把那些磁盘使用率高的那些块迁移到磁盘使用率低的节点里。

但是它检测的是全局的磁盘使用率，比如：一个磁盘使用99%，另一个使用10%，并不能在这两个节点之间均衡！

1.首先停掉集群，df -k 查看磁盘使用率信息，du -a|sort -rn|more查看块大小

2.进入opt/hdfs/dfs/data目录下。这里面是block块的物理存储文件，将data1中较多的数据严格按照目录进行移动到data2中

时间： 2025-01-03 23:58:27

hadoop运维案例分享的相关文章

运维百科,分享运维过程中的精华

运维百科是由多名IDC机房资深运维共同建设的一个基于互联网传播的运维知识分享平台,分享运维过程中的精华,记录运维人点滴生活. 感兴趣的朋友,可以打开www.idcyunwei.org了解! 运维百科,分享运维过程中的精华,布布扣,bubuko.com

运维经验分享（六）-- 深究crontab不能正确执行Shell脚本的问题（二）

运维经验分享作为一个专题,目前共7篇文章 <运维经验分享(一)-- Linux Shell之ChatterServer服务控制脚本> <运维经验分享(二)-- Linux Shell之ChatterServer服务控制脚本二次优化> <运维经验分享(三)-- 解决Ubuntu下crontab不能正确执行Shell脚本的问题(一)> <运维经验分享(四)--关于 java进程管理的服务控制脚本编程思路分析> <运维经验分享(五)-- 改进的java进程管

运维经验分享（七）-- Linux Shell之ChatterServer服务控制脚本第三次优化

运维经验分享（四）--关于 java进程管理的服务控制脚本编程思路分析

运维经验分享（五）-- 改进的java进程管理的服务控制脚本

Hadoop运维记录系列(二十三)

最近做集群机房迁移,在旧机房和新机房之间接了根专线,做集群不停机搬迁,也就是跨机房,同时要新加百多台服务器,遇到几个问题,记录一下. 旧集群的机器是centos 6, 新机房加的机器是centos 7. 一.丢包问题在跨机房的时候,datanode显示很多Slow BlockReceiver的日志 WARN org.apache.hadoop.hdfs.server.datanode.DataNode: Slow BlockReceiver write packet to mirror to

Hadoop运维记录系列(十六)

应了一个国内某电信运营商集群恢复的事,集群故障很严重,做了HA的集群Namenode挂掉了.具体过程不详,但是从受害者的只言片语中大概回顾一下历史的片段. Active的namenode元数据硬盘满了,满了,满了...上来第一句话就如雷贯耳. 运维人员发现硬盘满了以后执行了对active namenode的元数据日志执行了 echo "" > edit_xxxx-xxxx...第二句话如五雷轰顶. 然后发现standby没法切换,切换也没用,因为standby的元数据和日志是5月

电商大数据平台运维案例

技术栈数据流向平台规模差异化,隔离化 YARN: https://baike.baidu.com/item/yarn/16075826?fr=aladdin 今天先到这儿,希望对您在系统架构设计与评估,团队管理, 项目管理, 产品管理,团队建设有参考作用 , 您可能感兴趣的文章: 互联网电商购物车架构演变案例互联网业务场景下消息队列架构互联网高效研发团队管理演进之一消息系统架构设计演进互联网电商搜索架构演化之一企业信息化与软件工程的迷思企业项目化管理介绍软件项目成功之要素人际沟通风格介绍一

Oracle运维案例之反序函数索引的使用

给大家分享一个我们分组遇到的sql优化的案例,案例非本人所负责的数据库,本人只是搬运工.这个案例发生在去年,发现原因是nets主机cpu上升,开发运营找到了DA,随后DA对其情况进行了分析,最后定位到一条低效SQL展开分析.(关于DA,是平安集团数据库技术部对DBA的一个细分) 以下就是定位到的sql: SELECT /*+ index(c IDX_CALLINFO_UPDATED_DATE) */ COUNT(1) FROM T_SOFTPHONE_CALLINFO C WHERE C.upd