HP P2000两块硬盘物理故障修复过程+raid条带分析方法

1.服务器数据恢复故障描述

服务器型号:HP P2000
服务器操作系统:VMWARE ESX
服务器文件系统:VMFS
磁盘阵列级别:RAID-5
需要进行数据恢复的服务器挂载了8块硬盘组成RAID-5磁盘阵列,其中4号盘是热备盘,服务器在正常运行中两块硬盘亮×××故障灯,经用户方维护人员检测,故障硬盘应为物理故障,表现为:序列号无法读取,在SAS扩展卡上硬盘无法识别。需要对raid磁盘阵列进行数据恢复

2.硬盘物理故障修复

由于服务器故障情况严重,需要首先确定该组raid阵列的磁盘掉线原因,工程师在接到用户服务器后优先处理raid阵列中的两块掉线盘,将坏盘连接到外部的SAS扩展卡上加电检测,磁头不寻道,工程师将PCB分离、检查硬盘HDA组件发现有部分氧化,进行清洁操作后再次加电检查依然无法寻道。于是工程师进行十分复杂的修盘工作(无尘室禁止拍照.修盘过程无图)
由于热备盘是正常硬盘,可以作为备件盘使用。于是硬件工程师将备件盘(也就是raid阵列中的4号盘)开盘拆取PCB安装到故障盘上替换故障盘的PCB进行修复,再将故障盘PCB上的ROM芯片拆取替换到新PCB上。硬盘硬件修复完成后再次对故障硬盘进行检测可以正常起转,磁头寻道声音正常,但是敲盘声音明显。由于4号盘的磁头与故障盘并不匹配,在另找配件后进行更换磁头操作,硬盘可以正常识别,故障盘数据镜像成功。

3.重组RAID-5磁盘阵列

使用数据恢复工具打开7块磁盘发现所有硬盘的的0扇区都有“55 AA”标志,0x01C2H处表示该分区的类型,这里显示“05”,代表这是一个扩展分区。因此从0扇区看这是一个不正常的MBR分区结构。
按照这一方法继续查找,分别在7号盘和8号盘找到了“55 AA”的标志。8号盘查询结果如下。这是一个正常的MBR分区,其0x01C6处数值代表指向的下一个扇区为GPT的头部。

7号盘查询结果如下。其0x01C6处数值代表指向下一个扇区。但是下一个扇区很明显不是GPT的头部。

由此可以确定8号盘是第一块盘,7号盘可能是最后一块盘。GPT分区所在扇区起始于172032扇区,因此初步确定LUN的起始扇区是172032扇区。
知识补课:条带也就是raid阵列块,它是RAID处理数据的基本单元。不同的RAID阵列的条带大小也各不相同。RAID-5的1个条带组中有1个校验区,根据这个规律可以对该raid-5阵列进行分析,也可以通过比较法确定条带大小。如某一条带组中的校验区跟这一条带组中的非校验区可能相差的很明显,通过WinHex查看并做对比,就可以找到条带大小。工程师对该服务器raid阵列分析得出条带大小为1024个扇区。
按照1024扇区分割,使一个记录为一个条带的大小,如图5所示。并且7块盘跳到同一记录283123。

当7块盘都定位到同一位置时,通过对比可以判断校验区的走向,继而判断整个RAID-5的走向。之前已经判断出8号盘是第一块盘了,把8号盘放在第一个位置,确定RAID-5为左走向,盘序为8,2,3,4,1,7,5。

工程师初步确定了LUN的起始扇区是172032扇区。使用数据恢复工具跳到172032扇区对硬盘的使用情况进行观察,正常情况下这个扇区所属条带中的5号盘应该是校验区,但实际情况中却显示校验区为8号盘,根据该raid左走向的规律,5号盘的校验区应该在172032-1024=171008扇区,即上一个条带。跳转到171008扇区,发现校验区为5号盘。因此可以确定LUN的起始扇区为171008扇区。
使用数据恢复工具按照确定的盘序重组raid添加进去,如图所示。选择RAID-5,Stripe size 512KB,左异步。

点击Build进行重组。组好后,由于数据从1024*8=8192个扇区开始,若专业恢复工具没有跳转到此扇区的功能,那么刚组好的RAID必须和一个文件再进行一次Build重组操作。RAID的起始扇区(Start sectors)选择8192,这个文件可以任意选择起始扇区和大小大小(Count sectors),下图为重组后的raid5磁盘阵列。

4.服务器数据恢复结果

RAID-5磁盘阵列重建完成经由客户验证,验证通过,服务器数据恢复成功。

原文地址:http://blog.51cto.com/sun510/2161933

时间: 2024-11-12 19:44:38

HP P2000两块硬盘物理故障修复过程+raid条带分析方法的相关文章

服务器raid5两块硬盘离线vxfs文件系统恢复数据方法

服务器数据恢复故障描述客户的服务器共有8块450GB SAS硬盘,其中7块硬盘组成一个RAID5阵列,1块热备盘.阵列中2块硬盘损坏并离线,导致RAID5阵列瘫痪,进而影响上层LUN无法正常使用.硬盘无物理故障,无坏道.对服务器raid数据恢复过程:1.备份数据使用dd命令或数据恢复工具将所有磁盘镜像成文件.图一:2.分析RAID组结构服务器的LUN都是基于RAID组的,所以需要先对底层RAID组的信息作出分析,再依据这些数据重构原始的RAID组.通过分析得知4号盘为hot Spare盘.继续分

HP存储raid5两块硬盘离线lvm下vxfs文件系统恢复数据方案

故障描述 HP FC MSA2000存储,由于RAID5阵列中出现2块硬盘损坏并离线,而此时只有一块热备盘成功激活,因此导致RAID5阵列瘫痪,上层LUN无法正常使用,用户联系联系北亚数据,整个存储空间由8块450GB SAS的硬盘组成,其中7块硬盘组成一个RAID5的阵列,剩余1块做成热备盘使用. 由于存储是因为RAID阵列中某些磁盘掉线,从而导致整个存储不可用.因此接收到磁盘以后先对所有磁盘做物理检测,检测完后发现没有物理故障.接着使用坏道检测工具检测磁盘坏道,发现也没有坏道. 解决方法:

HP存储raid5两块硬盘离线lvm下vxfs文件系统恢复数据过程

故障描述 HP FC MSA2000存储,由于RAID5阵列中出现2块硬盘损坏并离线,而此时只有一块热备盘成功激活,因此导致RAID5阵列瘫痪,上层LUN无法正常使用,用户联系联系北亚数据,整个存储空间由8块450GB SAS的硬盘组成,其中7块硬盘组成一个RAID5的阵列,剩余1块做成热备盘使用. 由于存储是因为RAID阵列中某些磁盘掉线,从而导致整个存储不可用.因此接收到磁盘以后先对所有磁盘做物理检测,检测完后发现没有物理故障.接着使用坏道检测工具检测磁盘坏道,发现也没有坏道. 解决方法:

raid5阵列掉了两块硬盘,都是物理故障,如何恢复数据

1.服务器数据恢复故障描述 今天介绍的这次数据恢复的服务器故障情况为硬盘离线,故障服务器内是由多块硬盘组成的一组raid5磁盘阵列,由于服务器内的硬盘掉线导致服务器崩溃,管理员检查服务器发现这两块硬盘均有物理故障,想要恢复数据必须首先对掉线硬盘进行物理故障的修复. 2.硬盘物理故障修复 服务器数据恢复工程师首先将掉线的两块硬盘进行检测,硬盘加电后磁头无法寻道,分离PCB清洁HDA组件后再次尝试加电依然不能寻道,只能对故障硬盘进行物理修复(洁净间中禁止拍照,此处无图). 3.重组RAID-5磁盘阵

HP P2000RAID-5两块盘离线的数据恢复报告

1. 故障描述 存储:HP P2000的存储 操作系统:VMWARE ESX 文件系统:VMFS 磁盘阵列:RAID-5 本案例的RAID-5由10块lT硬盘组成,其中6号盘是热备盘,由于故障导致RAID-5磁盘阵列的两块盘掉线,表现为两块硬盘亮黄灯. 经用户方维护人员检测,故障硬盘应为物理故障,表现为:序列号无法读取,在SAS扩展卡上硬盘无法识别. 2. 数据备份与修复 故障发生后用户方工程师与我公司(北亚数据恢复中心)联系,经过详细咨询,了解到故障比较严重,必须把RAID-5磁盘阵列带到我公

数据恢复过程之:服务器raid5两块硬盘离线数据恢复

服务器故障情况简介:客户的一台ibm x3850服务器上组了一个raid5磁盘阵列,有两块硬盘离线,服务器崩溃.北亚数据恢复中心工程师对服务器进行初检,客户的磁盘阵列由5块硬盘组成,linux redhat 5.3操作系统,存储一个oracle数据库.阵列中有两块硬盘处于离线状态,热备盘未激活.硬盘无物理故障,无明显同步表现.数据恢复方案:1.关闭服务器同时确保在恢复过程中不再开启服务器,将故障盘进行标记后取出槽位挂载至数据恢复公司的备份服务器环境进行镜像备份.完成后恢复原故障服务器.2.分析备

EMC FC AX-4存储两块硬盘离线数据恢复方法和数据恢复过程

服务器故障描述:山西某公司一台服务器的EMC FC AX-4存储RAID5磁盘阵列,阵列中共有12块硬盘组成raid5磁盘阵列其中有两块硬盘为热备盘,阵列中硬盘单盘容量为1TB,服务器中有两块硬盘离线,一块热备盘未启用.客户将服务器中所有磁盘带到数据恢复公司.通常情况下造成服务器硬盘离线的原因为磁盘物理故障或者硬盘坏道.但是由于EMC控制器有着十分严格的磁盘检查策略,容易将性能不稳定的硬盘判定为硬件故障提出raid组,所以导致服务器崩溃的原因也有可能是磁盘读写不稳定.服务器数据恢复解决过程:第一

raid5两块硬盘离线数据恢复案例

Riad数据恢复故障概述 北京某公司的一台存储挂载了raid5磁盘阵列,正常使用中存储忽然崩溃,经管理员检查发现raid5阵列中有两块硬盘离线,阵列中共两块热备盘其中一块热备盘激活失败,raid5阵列瘫痪导致存储无法使用.需要进行基于raid5磁盘阵列的数据恢复操作. Raid5阵列数据恢复检测: 硬件工程师首先对raid中两块离线硬盘进行物理检测,硬盘无物理故障,无坏道.该存储上层共一个lun用于sun小机使用,ZFS文件系统. Raid5阵列数据恢复过程 1.备份数据按照数据恢复流程对所有磁

Dell 2850服务器磁盘阵列两块硬盘离线恢复过程

服务器故障描述: 客户使用Dell 2850服务器组建了raid5磁盘阵列,阵列中包含有6块硬盘(SCSI硬盘,单盘容量300G),服务器操作系统为linux Redhat4:文件系统为ext3文件系统.在使用过程中服务器瘫痪,管理员对阵列检查后发现有两块硬盘离线,对其中一块硬盘进行了强制上线操作,但操作系统启动异常.管理员此时意识到事情的严重程度,马上对服务器进行关机,然后联系到数据恢复中心进行数据恢复. 数据恢复中心初检结论: 在服务器数据恢复工作中,raid5两块硬盘离线的情况十分常见,由