解析IBM x3850 RAID5服务器故障恢复方案

【基本信息】
服务器型号:IBM X3850服务器,
硬盘型号:73G SAS硬盘,
硬盘数量:5块硬盘 其中4块组成一个RAID5,另一块做为热备盘(Hot-Spare),
操作系统:linux redhat 5.3,应用系统为构架于oracle的一个oa。

【故障表现】
3号盘早已经离线,但热备盘未自动激活rebuild(原因不明),之后2号盘离线,RAID崩溃。
oracle已经不再对本oa系统提供后续支持,用户要求尽可能数据恢复+操作系统复原。

【初检结论】
热备盘完全无启用,硬盘无明显物理故障,无明显同步表现。数据通常可恢复。

【恢复方案】
1、保护原环境,关闭服务器,确保在恢复过程中不再开启服务器。
2、把故障硬盘编号排序,用以确保硬盘取出槽位后可以完全复原。
3、将故障硬盘挂载至只读环境,对所有故障硬盘做完全镜像(参考<如何对磁盘做完整的全盘镜像备份>)。备份完成后交回原故障盘,之后的恢复操作直到数据确认无误前不再涉及原故障盘。
4、对备份盘进行RAID结构分析,得到其原来的RAID级别,条带规则,条带大小,校验方向,META区域等。
5、根据得到的RAID信息搭建一组虚拟的RAID5环境。
6、进行虚拟磁盘及文件系统解释。
7、检测虚拟结构是否正确,如不正确,重复4-7过程。
8、确定数据无误后,按用户要求回迁数据。如果仍然使用原盘,需确定已经完全对原盘做过备份后,重建RAID,再做回迁。回迁操作系统时,可以使用linux livecd或win pe(通常不支持)等进行,也可以在故障服务器上用另外硬盘安装一个回迁用的操作系统,再进行扇区级别的回迁。
9、数据移交后,由我数据恢复中心延长保管数据3天,以避免可能忽略的纰漏。

【预估周期】
备份时间:2小时左右
解释及导出数据时间:约4小时
回迁操作系统:约4小时。

【过程详解】
1、对原硬盘进行完整镜像,镜像后发现2号盘有10-20个坏扇区,其余磁盘均无坏道。
2、通过对结构的分析得到的最佳结构为0,1,2,3盘序,缺3号盘,块大小512扇区,backward parity(Adaptec),结构如下图:

3、组好后数据验证,200M以上的最新压缩包解压无报错,确定结构正确。
4、直接按此结构生成虚拟RAID到一块单硬盘上,打开文件系统无明显报错。
5、确定备份包安全的情况下,经客户同意后,对原盘重建RAID,重建时已经用全新硬盘更换损坏的2号盘。将恢复好的单盘用USB方式接入故障服务器,再用linux SystemRescueCd启动故障服务器,之后通过dd命令进行全盘回写。
6、回写后,启动操作系统。
7、dd所有数据后,启动操作系统,无法进入,报错信息为:/etc/rc.d/rc.sysinit:Line 1:/sbin/pidof:Permission denied,分析为此文件权限有问题。
8、用SystemRescueCd重启后检查,此文件时间、权限、大小均有明显错误,显然节点损坏。
9、重新分析重组数据中的根分区,定位出错的/sbin/pidof,发现问题因2号盘坏道引起。
10、使用0,1,3这3块盘,针对2号盘的损坏区域进行xor补齐。补齐后重新校验文件系统,依然有错误,再次检查inode表,发现2号盘损坏区域有部分节点表现为(图中的55 55 55部分):

11、很明显,虽然节点中描述的uid还正常存在,但属性,大小,以最初的分配块全部是错误的。按照所有可能进行分析,确定无任何办法找回此损坏节点。只能希望修复此节点,或复制一个相同的文件过来。对所有可能有错的文件,均通过日志确定原节点块的节点信息,再做修正。
12、修正后重新dd根分区,执行fsck -fn /dev/sda5,进行检测,依然有报错,如下图:

13、根据提示,在系统中发现有多个节点共用同样的数据块。按此提示进行底层分析,发现,因3号盘早掉线,帮存在节点信息的新旧交集。
14、按节点所属的文件进行区别,清除错误节点后,再次执行fsck -fn /dev/sda5,依然有报错信息,但已经很少。根据提示,发现这些节点多位于doc目录下,不影响系统启动,于是直接fsck -fy /dev/sda5强行修复。
15、修复后,重启系统,成功进入桌面。启动数据库服务,启动应用软件,一切正常,无报错。

到此,数据恢复及系统回迁工作完成。

原文地址:https://blog.51cto.com/sun510/2448201

时间: 2024-10-16 13:21:12

解析IBM x3850 RAID5服务器故障恢复方案的相关文章

理想综合平台 IBM x3850 X5服务器促销

IBM System x3850 X5(7145I19)是一款高效机架服务器.日前,有商家对该产品进行促销.标配情况下,这款7145I19型号服务器搭载了2颗主频为1.86GHz老款至强E7520处理器,目前经销商“创想启航”的售价为61901元. iPad mini免费送 IBM x3850 X5直降3千 IBM System x3850 X5(7145i19) x3850 X5系列服务器提供有eX5内存技术,拥有更高的内存带宽和更大的内存I/O输出. 产品名称 IBM System x385

IBM X3850 Windows Server 2008 X64安装Oracle10g x64问题锦集

最近在IBM X3850机柜服务器上,Windows Server 2008 X64操作系统的环境下安装Oracle10g X64的数据库.搞了差不多有8个工作小时,感叹比在RedHat上安装都坑爹(也有可能是服务器上不能上网,重启服务器就得十分钟的原因),现把其中遇到的各类问题,整理如下: 一.安装程序一闪而逝 推测原因:在弹出的控制台上显示当前系统为6.0,而不是更改后的6.1. 解决方法:把安装程序放在其他分区上,只要在控制台上显示为6.1即可安装下去.根本的解决方法,还没有调试出来,如果

IBM X3850 X5 PCI故障实例

公司有一台IBM X3850 X5服务器,运行过程中故障面板亮起,查看后发现PCI报错.整个光通路诊断面板上只有PCI灯在亮,且运行状态的读数为01,证明服务器运行时正常的,只是有小错误而已.收集日志发现如下图.首先查到资料,我们51的大神的博客里提到的相关处理方式尝试操作了一下,并未产生作用.http://blog.51cto.com/830629/1722671仔细分析对比后,发现大神博客里提到的报错为:1.A software NMI has occurred on system2.Fau

RAID5服务器磁盘阵列,两块盘坏了数据恢复

RAID5服务器磁盘阵列,两块盘坏了数据恢复,全国上门服务,现场进行服务器 RAID5数据修复 专业提供服务器数据恢复,服务器硬盘维修,RAID数据恢复,RAID阵列数据恢复,RAID5数据恢复,RAID5E数据恢复,raid5ee数据恢复,全国上门服务,现场进行服务器数据恢复服务. 一.RAID 5服务器阵列简介: RAID 5可以理解为是RAID 0和RAID 1的折衷方案.RAID 5不对存储的数据进行备份,而是把数据和相对应的奇偶校验信息存储到组成RAID5的各个磁盘上,奇偶校验信息和相

IBM X3850服务器配置RAID

实践的环境:IBM X3850服务,8块HDD的300G硬盘服务器在安装系统之前都会把硬盘做一下raid,保证数据的安全.可靠性和性能的提升,今天搞一台IBM的服务器来用,然后记录一下配置过程,详细的介绍一下raid的做法,这次我配置的是raide5,其他的raide也是大同小异的做法. 1. 服务器开机后,稍等几分钟,进入阵列卡的提示后,按照提示进入阵列卡,提示按键为 Ctrl+H进入raid卡选项,点击"start"开始配置,如下图所示:2. 在配置界面中,点击"conf

安装部署VMware vSphere 5.5文档 (6-2) 为IBM x3850 X5服务器安装配置VMware ESXi

部署VMware vSphere 5.5 实施文档 ############################################################################### ## ver1.0 2014-09-09 ## ## 本文内容来自中国专利信息中心-基础系统处-张阳郑榕鹏 ## ## 如有转载,请务必保留本文链接及版权信息. ## ## QQ:962903 353961396 ## ## E-mail:[email protected] \ [ema

IBM X3650 M3服务器上RAID配置实战

背景知识:RAID就是一种由多块廉价磁盘构成的冗余阵列,在操作系统下是作为一个独立的大型存储设备出现的.RAID可以充分发挥出多块硬盘的优势,可以提升硬盘速度,增大容量,提供容错功能确保数据安全性,在任何一块硬盘出现问题的情况下都可以继续工作,不会受到损坏硬盘的影响.RAID可以分为软raid和硬raid,一般中高档的服务器多使用硬件raid控制器,硬件Raid基于Raid卡,软件Raid基于操作系统. 单位新到一台IBM X3650 M3服务器准备做测试用,有一段时间没有亲自做RAID了,所以

分分钟轻松搞定IBM系列 RAID5搭建

分分钟轻松搞定IBM系列 RAID5搭建 按照 以下图片步骤一步步可轻松完成IBM服务器RAID1.5.10等的搭建. 此例是以RAID5为例,RAID1和10可举一反三. 原文地址:https://www.cnblogs.com/kezi/p/11621258.html

关于在阿里云ESC服务器解析域名并绑定服务器IP后上传文件通过域名访问步骤教程

第一步:登录阿里云官网,获取服务器ECS的指定公网IP地址. 1.输入阿里云官网账号进入首页,如下图: 2.点击进入"管理控制台",如下图: 3.点击"云服务器ECS",进入你购买的服务器概览界面,如下图: 4.点击左侧"实例"选项,进入你名下服务器信息界面,如下图:注意你购买服务器所在地. 获取服务器公网地址. 第二步:登录你所购买域名的供应商进行解析域名绑定服务器IP地址:如(万网)(现万网与阿里云整合在一起,所以你再阿里云也可以解析域名到你