EMC存储崩溃恢复数据过程

【Raid数据恢复概述】
北京某企业一台EMC FC AX-4存储由于存储上的RAID5阵列故障导致存储瘫痪,急需进行raid数据恢复。这台存储中搭建了一组12块硬盘的raid5磁盘阵列,阵列中包括有2块热备盘。由于raid阵列中出现两块硬盘离线,但热备盘中有一块未成功激活,raid真累瘫痪,上层LUN无法正常使用,存储崩溃,数据丢失,客户要求上门对raid阵列进行数据恢复。

【Raid5硬盘检测过程】

由于硬盘离线原因未知,首先由硬盘工程师对raid阵列中的所有硬盘进行物理检测(包括掉线盘和正常磁盘)但所有磁盘均无物理故障,掉线盘也是正常的,随后工程师使用数据恢复工具对所有磁盘进行坏道检测,依然是正常的。

【raid阵列数据备份】

由于硬盘正常,工程师按照数据恢复流程开始对所有磁盘进行镜像备份,在本案例中由于源磁盘的扇区大小为520字节,因此还需要使用特殊工具将所有备份的数据再做520 to 512字节的转换(此为特殊情况,不做过多叙述)。

【分析RAID组结构】

镜像完成后将在镜像文件中对底层raid信息进行分析,得出raid结构后重组原raid组。工程师依次对磁盘进行分析发现该磁盘阵列中9号盘和10号盘为热备盘(这两块磁盘中没有数据),但从管理界面中查看到10盘在原raid出现硬盘离线后替换了掉线的3号硬盘,但由于raid5阵列的性质导致虽然10号盘虽然成功激活但阵列中仍然有一块硬盘缺失,所以数据没有同步。继续分析其他10块硬盘,分析数据在硬盘中分布的规律,RAID条带的大小,以及每块磁盘的顺序。

【分析RAID组lun信息】

尝试通过一款我们自用的RAID虚拟程序把客户的原raid组虚拟组件起来,然后分析LUN在RAID组中的分配信息,以及LUN分配的数据块MAP。由于底层只有一个LUN,因此只需要分析一份LUN信息就OK了。然后解释LUN的数据MAP并导出LUN的所有数据。

【解释ZFS文件系统并修复】

同样使用一款自用的软件对LUN做文件系统解释,但是程序在对某些文件系统原文件进行解释时出现报错现象,工程师首先对程序进行了debug调试、随后分析zfs文件系统,最后得出报错的原因是元文件损坏导致解释zfs文件系统的程序报错。工程师手动对损坏的元文件进行修复操作,zfs文件系统就可以正常解析了,然后导出所有数据。

【数据恢复结果验证】

客户方工程师对所有数据进行验证,数据恢复成功。

原文地址:http://blog.51cto.com/sun510/2121132

时间: 2024-11-05 15:54:50

EMC存储崩溃恢复数据过程的相关文章

北京EMC存储崩溃raid离线恢复数据方法

[Raid数据恢复概述]北京某企业一台EMC FC AX-4存储由于存储上的RAID5阵列故障导致存储瘫痪,急需进行raid数据恢复.这台存储中搭建了一组12块硬盘的raid5磁盘阵列,阵列中包括有2块热备盘.由于raid阵列中出现两块硬盘离线,但热备盘中有一块未成功激活,raid真累瘫痪,上层LUN无法正常使用,存储崩溃,数据丢失,客户要求上门对raid阵列进行数据恢复. [Raid5硬盘检测过程]由于硬盘离线原因未知,首先由硬盘工程师对raid阵列中的所有硬盘进行物理检测(包括掉线盘和正常磁

这种方式解决EMC存储崩溃RAID离线问题,简单又高效

故障描述:由于RAID5阵列中出现2块硬盘损坏,而此时只有一块热备盘成功激活,因此导致RAID5阵列瘫痪,上层LUN无法正常使用,整个存储空间由12块1TB SATA的硬盘组成的,其中10块硬盘组成一个RAID5的阵列,其余两块做成热备盘使用.由于前两个步骤并没有检测到磁盘有物理故障或者是坏道,由此推断可能是由于某些磁盘读写不稳定导致故障发生.因为EMC控制器检查磁盘的策略很严格,一旦某些磁盘性能不稳定,EMC控制器就认为是坏盘,就将认为是坏盘的磁盘踢出RAID组.而一旦RAID组中掉线的盘到达

HP存储raid5两块硬盘离线lvm下vxfs文件系统恢复数据过程

故障描述 HP FC MSA2000存储,由于RAID5阵列中出现2块硬盘损坏并离线,而此时只有一块热备盘成功激活,因此导致RAID5阵列瘫痪,上层LUN无法正常使用,用户联系联系北亚数据,整个存储空间由8块450GB SAS的硬盘组成,其中7块硬盘组成一个RAID5的阵列,剩余1块做成热备盘使用. 由于存储是因为RAID阵列中某些磁盘掉线,从而导致整个存储不可用.因此接收到磁盘以后先对所有磁盘做物理检测,检测完后发现没有物理故障.接着使用坏道检测工具检测磁盘坏道,发现也没有坏道. 解决方法:

EMC CX4-480服务器恢复数据方法

[服务器数据恢复故障描述] 用户的EMC CX4-480存储服务器由于硬盘出现故障离线瘫痪.服务器中共有10块硬盘,其中7块硬盘组成RAID 5磁盘阵列.另外3块硬盘为服务器在使用过程中的掉线磁盘,用户在处理掉线磁盘时只添加新的硬盘做rebuild,并没有将掉线的硬盘拔掉,现已有过3块掉线磁盘,所以服务器中有3块多余硬盘. 服务器管理员推断服务器瘫痪的原因是阵列中硬盘出现硬件故障导致服务器瘫痪,于是将所有硬盘交给硬件数据恢复工程师对硬件进行物理检测.硬件数据恢复工程师对服务器中所有硬盘逐一进行物

硬盘物理故障开盘+RAID-5阵列瘫痪恢复数据过程

服务器数据恢复故障描述 服 务 器 型 号:HP P2000服务器操作系统:VMWARE ESX服务器文件系统:VMFS磁盘阵 列 级 别:RAID-5需要进行数据恢复的服务器挂载了8块硬盘组成RAID-5磁盘阵列,其中4号盘是热备盘,服务器在正常运行中两块硬盘亮×××故障灯,经用户方维护人员检测,故障硬盘应为物理故障,表现为:序列号无法读取,在SAS扩展卡上硬盘无法识别.需要对raid磁盘阵列进行数据恢复** 硬盘物理故障修复 由于服务器故障情况严重,需要首先确定该组raid阵列的磁盘掉线原因

MySQL 5.6.26 通过frm & ibd 恢复数据过程

在A服务器上创建数据库yoonroot(yoon)> show create table yoon\G*************************** 1. row *************************** Table: yoonCreate Table: CREATE TABLE `yoon` ( `id` int(11) DEFAULT NULL, `name` varchar(20) DEFAULT NULL) ENGINE=InnoDB DEFAULT CHARSET

MySQL崩溃恢复过程常见错误分析

最近在和一个同事争论MySQL崩溃恢复中的一些常见错误时出现了一些分歧,他认为一些参数的设置会导致MySQL出现崩溃后恢复不起来的问题,但对此,我却不认同,虽然一些参数的设定会导致数据丢失,但应该不会引起数据库崩溃之后无法恢复的情况,因此,就想整理出MySQL崩溃恢复的过程来加深学习! 图一 mysql WAL过程 在正常情况下,数据写入会先写入redo_buffer_pool,然后在写入redo_log_file,这中间如果由于参数设置不当,可能会发生丢失,但不影响主机的崩溃恢复,但有以下两种

UNDO及MVCC、崩溃恢复

UNDO特性:避免脏读.事务回滚.非阻塞读.MVCC.崩溃恢复 事务工作流程(图2) MVCC原理机制 崩溃恢复:redo前滚.undo回滚 长事务.大事务:危害.判断.处理 UNDO优化:实现undo分离.收缩undo表空间 0.undo物理存储研究 1>ibdata第五个数据块(系统事务表)中存储着128个undo段的段头块的地址 2>每一个undo段头块有1024行,两行记录一个事务,一共可以记录512个事务 3>一个数据行中存放XID.rollpointr 4>一个数据行被

EMC FC AX-4存储崩溃,raid5硬盘损坏的数据恢复过程

故障描述: 北京某医院EMC FC AX-4存储崩溃,由于RAID5阵列中出现2块硬盘损坏,而此时只有一块热备盘成功激活,因此导致RAID5阵列瘫痪,上层LUN无法正常使用,整个存储空间由12块1TB STAT的硬盘组成的,其中10块硬盘组成一个RAID5的阵列,其余两块做成热备盘使用. 由于前两个步骤并没有检测到磁盘有物理故障或者是坏道,由此推断可能是由于某些磁盘读写不稳定导致故障发生.因为EMC控制器检查磁盘的策略很严格,一旦某些磁盘性能不稳定,EMC控制器就认为是坏盘,就将认为是坏盘的磁盘