Linux 硬盘故障案例分享

本文主要分享下服务器中硬盘发生故障后/var/log/messages 和/var/log/mcelog中会出现的具体日志以及对应的修复方法,随着案例的不断增多和丰富,最后我会归纳形成自动化脚本。

当然其中会有很多硬盘有物理坏道,需要更换,这种就需要硬盘供应商去更换了,此处不在本文讨论范围。

服务器型号:

HP SE1170s

硬盘型号:

MB2000EAZNL

故障1:

Jul 17 00:46:34 xxxxxxxxxxxxxx kernel: [8384801.159283] EXT4-fs (sdl1): warning: mounting fs with errors, running e2fsck is recommended

Jul 17 00:50:00 xxxxxxxxxxxxxx kernel: [8385006.016500] sd 6:0:6:0: [sdl] Sense Key : Medium Error [current]

Jul 17 00:50:00 xxxxxxxxxxxxxx kernel: [8385006.016508] sd 6:0:6:0: [sdl] Add. Sense: Unrecovered read error

Jul 17 00:50:00 xxxxxxxxxxxxxx kernel: [8385006.016524] Buffer I/O error on device sdl1, logical block 1415594116

Jul 17 00:50:00 xxxxxxxxxxxxxx kernel: [8385006.095561] Buffer I/O error on device sdl1, logical block 1415594117

故障解决:

#e2fsck /dev/sdl1

若坏的block无法修复,则需要用fdisk格式化硬盘:

#fdisk /dev/sdl

#d

#n

#p

#Enter

#Enter

#w

用ext4文件系统格式化磁盘:

#mkfs.ext4 /dev/sdl1

把格式化好的硬盘mount回来:

#mount -L /hadoop07 /hadoop/7 -t ext4 -o defaults,noatime,nodiratime,noauto

若几天后发现/var/log/messages里面有最新的/dev/sdl的错误日志,则表明此硬盘需要更换了,这时可以先禁掉这块盘所挂在目录的读写功能,在此之前你可以先把里面的数据拷贝出来:

#chmod 0 /hadoop07

时间: 2024-10-06 21:51:32

Linux 硬盘故障案例分享的相关文章

Linux磁盘故障案例

原因:由于另外一块磁盘不存在,但是配置文件/etc/fstab中又有挂载的配置,挂载出问题就导致这样的故障. 输入root密码进去 编辑/etc/fstab文件把箭头指向的这一行注释掉或者删除掉.然后wq保存退出,reboot重启即可 原文地址:https://www.cnblogs.com/xiaoliangxianshen/p/9197700.html

Linux -磁盘故障案例

当出现如上提示时,原因是,磁盘挂载有问题,意思让你输入root密码.解决办法:vi /etc/fstab注销 /dev/sdb或者删掉.保存,退出,reboot 原文地址:http://blog.51cto.com/13451715/2296078

一次因NAS存储故障引起的Linux系统恢复案例

一. 故障现象描述 NAS操作系统内核为Linux,自带的存储有16块硬盘,总共分两组,每组做了RAID5,Linux操作系统无法正常启动,在服务启动到cups那里就停止了,按键ctrl+c强制断开也没有响应,查看硬盘状态,都是正常的,没有报警或者警告现象. 二. 问题判断思路 通过上面这些现象,首先判断NAS硬件应该没问题,NAS存储盘也应该正常,现在Linux无法启动,应该是Linux系统本身存在问题,因此,首先从Linux系统入手进行排查. 三. 问题处理过程 1.第一次处理过程 NAS系

案例分享:数据库镜像故障转移失败

案例分享:数据库镜像故障转移失败 对于关键性数据库,我们配置了带有见证服务器的同步数据库镜像,来允许自动故障转移.一切运行正常,直到有一次数据中心的突然断电.数据库镜像执行了故障转移,但是运维反馈说应用程序挂起了.当我们手动切换回来,应用程序又正常工作.为什么应用程序没有也故障转移呢? 这是使用数据库镜像的合理的常见问题,像这样的生产应用失败,是因为在镜像部署后没有做故障转移测试.在失败的故障转移之后我们感到棘手. 为了避免生产应用停机,我们在测试环境复制了线上的镜像环境.在确认应用和数据库镜像

RAID5单块和多块硬盘故障如何恢复

RAID5是比较常见的磁盘阵列,具有比较高的容错能力,深得大家喜爱.虽然raid5容错性很高,但是也有遇到故障的时候,下面给大家分享遇到raid5单块和多块硬盘的故障如何恢复和硬盘数据恢复方法. RAID5单块硬盘故障恢复方法: 单个硬盘失效,我们通过热插拔拔下来再插上去.如热插拔没用在进入RAID配置界面,将该硬盘进行ForceOnLine操作.还可以通过更换其它硬盘插槽,切记不要打乱磁盘顺序.如果上面操作不能解决问题,尝试将该硬盘格式化后插入,然后使用ReBuild操作.在这过程中可能会遇到

KVM部署LVS集群故障案例一则

一.故障现象 KVM部署LVS(Linux Virtual Server)集群后,能够单独以HTTP方式访问RS(Real Server)的实际IP,但无法通过VIP(Virtual IP)访问. 二.故障分析过程   1.简化架构   在原部署环境中,采用的架构是LVS的DR(Direct Return)模式,如下图所示: 为了便于故障排查,我们简化为 也就是在2台宿主机上,各保留一个虚拟机,角色分别是LVS的Director(调度器)和RS. 该架构中的服务器(及虚拟机)的IP和MAC地址如

【LinkedSee灵犀助力Meetup】朱颖航:大规模场景下的智能化硬盘故障预警及修复

[LinkedSee灵犀助力Meetup]朱颖航:大规模场景下的智能化硬盘故障预警及修复 2017-10-26 LinkedSee灵犀 11月4号,由南京大学PASA大数据实验室与CCF YOCSEF南京分论坛主办的南京大数据技术Meetup第十次会议 暨 2017 CCF BDCI数据大赛 YOCESF南京专场将在南京大学隆重举行.LinkedSee灵犀的技术总监朱颖航将会议上进行技术干货的分享. 朱颖航  技术总监 曾在百度系统部担任多年资深系统工程师,是百度"智能数据中心"项目的

自动化运维工具——ansible详解案例分享

自动化运维工具--ansible详解案例分享(一)目录ansible 简介ansible 是什么?ansible 特点ansible 架构图ansible 任务执行ansible 任务执行模式ansible 执行流程ansible 命令执行过程ansible 配置详解ansible 安装方式使用 pip(python的包管理模块)安装使用 yum 安装ansible 程序结构ansible配置文件查找顺序ansible配置文件ansuble主机清单ansible 常用命令ansible 命令集a

mysql的"双1设置"-数据安全的关键参数(案例分享)

mysql的"双1验证"指的是innodb_flush_log_at_trx_commit和sync_binlog两个参数设置,这两个是是控制MySQL 磁盘写入策略以及数据安全性的关键参数.下面从参数含义,性能,安全角度阐述两个参数为不同的值时对db 性能,数据的影响. 一.参数意义 innodb_flush_log_at_trx_commit如果innodb_flush_log_at_trx_commit设置为0:log buffer将每秒一次地写入log file中,并且log