EMC FC AX-4存储崩溃,raid5硬盘损坏的数据恢复过程

故障描述:

北京某医院EMC FC AX-4存储崩溃,由于RAID5阵列中出现2块硬盘损坏,而此时只有一块热备盘成功激活,因此导致RAID5阵列瘫痪,上层LUN无法正常使用,整个存储空间由12块1TB STAT的硬盘组成的,其中10块硬盘组成一个RAID5的阵列,其余两块做成热备盘使用。

由于前两个步骤并没有检测到磁盘有物理故障或者是坏道,由此推断可能是由于某些磁盘读写不稳定导致故障发生。因为EMC控制器检查磁盘的策略很严格,一旦某些磁盘性能不稳定,EMC控制器就认为是坏盘,就将认为是坏盘的磁盘踢出RAID组。而一旦RAID组中掉线的盘到达到RAID级别允许掉盘的极限,那么这个RAID组将变的不可用,上层基于RAID组的LUN也将变的不可用。目前初步了解的情况为基于RAID组的LUN只有一个,分配给SUN小机使用,上层文件系统为ZFS。

解决过程

1、硬盘检测

由于存储是因为某些磁盘掉线,从而导致整个存储不可用。因此接收到磁盘以后先对所有磁盘做物理检测,检测完后发现没有物理故障。接着使用坏道检测工具检测磁盘坏道,发现也没有坏道。

2、备份数据

考虑到数据的安全性以及可还原性,在做数据恢复之前需要对所有源数据做备份,以防万一其他原因导致数据无法再次恢复。使用winhex将所有磁盘都镜像成文件,由于源磁盘的扇区大小为520字节,因此还需要使用特殊工具将所有备份的数据再做520 to 512字节的转换。

3、分析RAID组结构

EMC存储的LUN都是基于RAID组的,因此需要先分析底层RAID组的信息,然后根据分析的信息重构原始的RAID组。分析每一块数据盘,发现8号盘和11号盘完全没有数据,从管理界面上可以看到8号盘和11号盘都属于Hot Spare,但8号盘的Hot Spare替换了5号盘的坏盘。因此可以判断虽然8号盘的Hot Spare虽然成功激活,但由于RAID级别为RAID5,此时RAID组中还缺失一块硬盘,所以导致数据没有同步到8号硬盘中。继续分析其他10块硬盘,分析数据在硬盘中分布的规律,RAID条带的大小,以及每块磁盘的顺序。

4、分析RAID组掉线盘

根据上述分析的RAID信息,尝试通过北亚自主开发的RAID虚拟程序将原始的RAID组虚拟出来。但由于整个RAID组中一共掉线两块盘,因此需要分析这两块硬盘掉线的顺序。仔细分析每一块硬盘中的数据,发现有一块硬盘在同一个条带上的数据和其他硬盘明显不一样,因此初步判断此硬盘可能是最先掉线的,通过北亚自主开发的RAID校验程序对这个条带做校验,发现除掉刚才分析的那块硬盘得出的数据是最好的,因此可以明确最先掉线的硬盘了。

5、分析RAID组中的LUN信息

由于LUN是基于RAID组的,因此需要根据上述分析的信息将RAID组重组出来。然后分析LUN在RAID组中的分配信息,以及LUN分配的数据块MAP。由于底层只有一个LUN,因此只需要分析一份LUN信息就OK了。然后根据这些信息使用北亚raid恢复(datahf.net)程序,解释LUN的数据MAP并导出LUN的所有数据。

6、解释ZFS文件系统并修复

利用北亚数据恢复(datahf.net自主开发的ZFS文件系统解释程序对生成的LUN做文件系统解释,发现程序在解释某些文件系统元文件的时候报错。迅速安排开发工程师对程序做debug调试,分析程序报错原因。接着安排文件系统工程师分析ZFS文件系统是否因为版本原因,导致程序不支持。经过长达7小时的分析与调试,发现ZFS文件系统因存储突然瘫痪导致其中某些元文件损坏,从而导致解释ZFS文件系统的程序无法正常解释。

上述分析明确了ZFS文件系统因存储瘫痪导致部分文件系统元文件损坏,因此需要对这些损坏的文件系统元文件做修复,才能正常解析ZFS文件系统。分析损坏的元文件发现,因当初ZFS文件正在进行IO操作的同时存储瘫痪,导致部分文件系统元文件没有更新以及损坏。人工对这些损坏的元文件进行手工修复,保证ZFS文件系统能够正常解析。

7、导出所有数据

利用程序对修复好的ZFS文件系统做解析,解析所有文件节点及目录结构。部分文件目录截图如下:

8、验证最新数据

由于数据都是文本类型及DCM图片,需要搭建太多的环境。由用户方工程师指点某些数据进行验证,验证结果都没有问题,数据均完整。部分文件验证如下:

时间: 2024-10-13 03:09:12

EMC FC AX-4存储崩溃,raid5硬盘损坏的数据恢复过程的相关文章

RAID5硬盘损坏,如何快速恢复数据

在常见的RAID类磁盘阵列中,RAID5兼具了RAID1和RAID0在数据读写方面的优点,在数据安全以及速度方面都比较好.不过RAID5也不能保证数据100%安全,比如硬盘损坏,就是导致数据丢失的常见原因之一.那么RAID5硬盘损坏,如何快速恢复数据? 首先我们来了解一下磁盘阵列RAID5的特性,RAID5使用至少三块硬盘来实现阵列,它既能实现RAID0的加速功能也能实现RAID1的备份数据功能,可以理解为是RAID0和RAID1的折衷方案.RAID5的主要特点是:用奇偶效验,可靠性强,但写入数

北亚针对服务器RAID5硬盘故障进行数据恢复案例

[基本信息] 服务器型号:IBM X3850服务器, 硬盘型号:73G SAS硬盘, 硬盘数量:5块硬盘 其中4块组成一个RAID5,另一块做为热备盘(Hot-Spare), 操作系统:linux redhat 5.3,应用系统为构架于oracle的一个oa. [故障表现] 3号盘早已经离线,但热备盘未自动激活rebuild(原因不明),之后2号盘离线,RAID崩溃. oracle已经不再对本oa系统提供后续支持,用户要求尽可能数据恢复+操作系统复原. [初检结论] 热备盘完全无启用,硬盘无明显

存储互斥失败导致数据丢失的数据恢复成功案例

数据恢复故障描述 需要恢复的数据是某公司的一个信息管理平台,客户使用了3台虚拟机为企业共享一台存储设备,供企业内部使用,存储了公司大量的重要数据文件.管理员在在正常工作时为该存储网络又连接了一台Windows2003服务器,结果这台存储突然无法使用了,管理员对存储进行故障排查时发现存储虚拟磁盘丢失,分区表丢失.重启该存储后故障依然没有解决.由于存储中的数据十分重要且没有备份,管理员不敢擅自进行尝试修复,只好通过数据恢复手段进行数据恢复.图片来源于网络,侵删 存储数据恢复分析 由于存储崩溃的原因并

EMC FC AX-4存储两块硬盘离线数据恢复方法和数据恢复过程

服务器故障描述:山西某公司一台服务器的EMC FC AX-4存储RAID5磁盘阵列,阵列中共有12块硬盘组成raid5磁盘阵列其中有两块硬盘为热备盘,阵列中硬盘单盘容量为1TB,服务器中有两块硬盘离线,一块热备盘未启用.客户将服务器中所有磁盘带到数据恢复公司.通常情况下造成服务器硬盘离线的原因为磁盘物理故障或者硬盘坏道.但是由于EMC控制器有着十分严格的磁盘检查策略,容易将性能不稳定的硬盘判定为硬件故障提出raid组,所以导致服务器崩溃的原因也有可能是磁盘读写不稳定.服务器数据恢复解决过程:第一

北京EMC存储崩溃raid离线恢复数据方法

[Raid数据恢复概述]北京某企业一台EMC FC AX-4存储由于存储上的RAID5阵列故障导致存储瘫痪,急需进行raid数据恢复.这台存储中搭建了一组12块硬盘的raid5磁盘阵列,阵列中包括有2块热备盘.由于raid阵列中出现两块硬盘离线,但热备盘中有一块未成功激活,raid真累瘫痪,上层LUN无法正常使用,存储崩溃,数据丢失,客户要求上门对raid阵列进行数据恢复. [Raid5硬盘检测过程]由于硬盘离线原因未知,首先由硬盘工程师对raid阵列中的所有硬盘进行物理检测(包括掉线盘和正常磁

EMC存储崩溃恢复数据过程

[Raid数据恢复概述]北京某企业一台EMC FC AX-4存储由于存储上的RAID5阵列故障导致存储瘫痪,急需进行raid数据恢复.这台存储中搭建了一组12块硬盘的raid5磁盘阵列,阵列中包括有2块热备盘.由于raid阵列中出现两块硬盘离线,但热备盘中有一块未成功激活,raid真累瘫痪,上层LUN无法正常使用,存储崩溃,数据丢失,客户要求上门对raid阵列进行数据恢复.[Raid5硬盘检测过程]由于硬盘离线原因未知,首先由硬盘工程师对raid阵列中的所有硬盘进行物理检测(包括掉线盘和正常磁盘

这种方式解决EMC存储崩溃RAID离线问题,简单又高效

故障描述:由于RAID5阵列中出现2块硬盘损坏,而此时只有一块热备盘成功激活,因此导致RAID5阵列瘫痪,上层LUN无法正常使用,整个存储空间由12块1TB SATA的硬盘组成的,其中10块硬盘组成一个RAID5的阵列,其余两块做成热备盘使用.由于前两个步骤并没有检测到磁盘有物理故障或者是坏道,由此推断可能是由于某些磁盘读写不稳定导致故障发生.因为EMC控制器检查磁盘的策略很严格,一旦某些磁盘性能不稳定,EMC控制器就认为是坏盘,就将认为是坏盘的磁盘踢出RAID组.而一旦RAID组中掉线的盘到达

分享一例EVA 4400存储硬盘故障数据恢复方案和数据恢复过程

EVA系列存储是一款以虚拟化存储为实现目的的HP中高端存储设备,平时数据会不断的迁移,加上任务通常较为繁重,所以磁盘的负载相对是较重的,也是很容易出现故障的.EVA是依靠大量磁盘的冗余空间,以及故障后rss冗余磁盘动态迁移来实现整个存储的数据保护,但随着越来越多的磁盘掉线,这种保护会接近临界,直至崩溃.下面以EVA存储故障为例,讲解EVA 4400存储数据恢复. 一.故障描述 整个EVA存储结构是由一台EVA4400控制器.EVA扩展柜及若干FC磁盘组成.由于磁盘故障导致存储中LUN不可用,致使

某公司HP-EVA4400存储硬盘离线的数据恢复方法和数据恢复过程

一.故障描述 整个EVA存储结构是由一台EVA4400控制器,三台EVA4400扩展柜和28块FC 300G硬盘构成的.由于两块磁盘掉线导致存储某些LUN不可用,某些LUN丢失.由于EVA4400是因为某些磁盘掉线,从而导致整个存储不可用.因此接收到磁盘以后北亚工程师先对所有磁盘做物理检测,检测完后发现没有物理故障.接着使用坏道检测工具检测磁盘坏道,发现也没有坏道.磁盘坏道检测日志如下: 图一: 二.备份数据 考虑到数据的安全性以及可还原性,在做数据恢复之前需要对所有源数据做备份,以防万一操作不