服务器数据恢复方法之存储raid硬盘离线数据恢复案例

【故障描述】
某法院的一台HP-P4500的存储系统,底层是12块1TB的硬盘组的RAID。其中每6个1TB的盘一组,第一组的前面一部分组了一个RAID0+1,是存放HP-P4500嵌入式系统,接着组了一个RAID5存放数据,第二组组了一个RAID5。在存储系统上层一共分了两个卷,卷大小一个为3TB,一个为5TB。后来因磁盘故障导致存储不可用,客户先请HP的工程做更换磁盘,强制上线,但存储还是不可用。最后才联系我们做数据恢复。

【硬件检测】
我们的硬件工程师先对客户的12块硬盘做了硬件检测,发现客户的硬盘都正常。既排除硬盘硬件故障。既然都正常,我们就对12块硬盘做了全盘镜像。

【故障分析】
我们使用专业的工具对备份出来的镜像做了详细的分析,发现底层的RAID是一个HP双循环RAID5。并且第一组RAID是好的,也就是第二组RAID的损坏导致存储上层的卷不可用,第二RAID也是一个RAID5,如果是其中一个硬盘掉线那么以RAID5的存储原理应该不会导致存储不可用。因此可以判断第二组RAID中至少是掉了两块磁盘,其中一块是早就掉线的,里面的数据都是旧的,我们需找出早就掉线的那块磁盘。可是我们通过硬件检测发现所有的硬盘都没有硬件故障,那么我们该如何判断掉线的盘是那一个呢?

【解决方案】
由于并不知道RAID中那一块硬盘是早掉线的,所以没办法重组RAID。经过认真思考后确定有两种可行方案。
方案一:穷举法,即假设其中某一块磁盘是早就掉线的,踢掉此盘,重组RAID然后生成全部数据,最后将数据挂载到HP-P4500上,看数据是否正确。如果数据不正确,那么再假设另一块盘是掉线的,以此循环。虽然这种方案可行,但是由于每次重组RAID生成数据的数据时间太长,并且准确性很低。
方案二:穷举加校验,还是和穷举法一样,假设某个磁盘是掉线的,踢掉磁盘后重组RAID,但不是生成全部的数据,而是只生成前面5G的数据,因为HP-P4500内部存储的数据的索引表位图位于RAID的前几个G之内(因为在这之前我们已经研究过HP-P4500的内部存储原理)。我们只需要查看这个索引表的位图的信息是否正确就可以判断此RAID是否正确。如果正确那么生成此RAID的数据即可完成RAID的重组。

【实施方案】
采用第二种解决方案,经过几次测试很快就判断出正确的RAID。连夜生成此RAID的数据。生成完数据后,将生成的数据和第一组完好的RAID一同挂载到HP-P4500上。然后启动存储,上层的卷由不可用变的可用了。查看了最新的文件发现一切都正常。

【数据恢复成功】
由于上层的卷直接可以用了,所以数据也都可见了,但是考虑到安全问题,我们还是将卷里的文件都拷贝出来,然后移交给客户。经过漫长的底层分析,加上不断的测试。终于在用户要求的时间内将数据恢复完成。整个恢复过程一共历时两天。之所以能这么快恢复,还是在于我们之前研究过HP-P4500的存储原理。知道了HP-P4500的存储原理以后,关于它的所有数据灾难都可以进行恢复。

原文地址:http://blog.51cto.com/sun510/2070660

时间: 2024-08-03 15:56:13

服务器数据恢复方法之存储raid硬盘离线数据恢复案例的相关文章

IBM ds4700存储硬盘离线数据恢复-北亚案例

服务器数据恢复背景 本次恢复数据的服务器为一台IBM DS4700 光纤存储,该公司管理员提供的信息如下:服务器型号为IBM DS4700 存储,挂载14块硬盘,存储oracle数据库,两块硬盘报黄灯错误,目前raid组崩溃/卷无法挂载/业务全部瘫痪,需要进行紧急数据恢复处理. 服务器数据恢复检测过程 服务器数据恢复工程师首先对服务器进行检查,通过IBM storage manager/frombyte.com连接存储查看服务器存储当前状态,存储报告逻辑卷状态失败.然后对物理磁盘状态进行查看,发

EMC FC AX-4存储两块硬盘离线数据恢复方法和数据恢复过程

服务器故障描述:山西某公司一台服务器的EMC FC AX-4存储RAID5磁盘阵列,阵列中共有12块硬盘组成raid5磁盘阵列其中有两块硬盘为热备盘,阵列中硬盘单盘容量为1TB,服务器中有两块硬盘离线,一块热备盘未启用.客户将服务器中所有磁盘带到数据恢复公司.通常情况下造成服务器硬盘离线的原因为磁盘物理故障或者硬盘坏道.但是由于EMC控制器有着十分严格的磁盘检查策略,容易将性能不稳定的硬盘判定为硬件故障提出raid组,所以导致服务器崩溃的原因也有可能是磁盘读写不稳定.服务器数据恢复解决过程:第一

数据恢复过程之:服务器raid5两块硬盘离线数据恢复

服务器故障情况简介:客户的一台ibm x3850服务器上组了一个raid5磁盘阵列,有两块硬盘离线,服务器崩溃.北亚数据恢复中心工程师对服务器进行初检,客户的磁盘阵列由5块硬盘组成,linux redhat 5.3操作系统,存储一个oracle数据库.阵列中有两块硬盘处于离线状态,热备盘未激活.硬盘无物理故障,无明显同步表现.数据恢复方案:1.关闭服务器同时确保在恢复过程中不再开启服务器,将故障盘进行标记后取出槽位挂载至数据恢复公司的备份服务器环境进行镜像备份.完成后恢复原故障服务器.2.分析备

raid5两块硬盘离线数据恢复案例

Riad数据恢复故障概述 北京某公司的一台存储挂载了raid5磁盘阵列,正常使用中存储忽然崩溃,经管理员检查发现raid5阵列中有两块硬盘离线,阵列中共两块热备盘其中一块热备盘激活失败,raid5阵列瘫痪导致存储无法使用.需要进行基于raid5磁盘阵列的数据恢复操作. Raid5阵列数据恢复检测: 硬件工程师首先对raid中两块离线硬盘进行物理检测,硬盘无物理故障,无坏道.该存储上层共一个lun用于sun小机使用,ZFS文件系统. Raid5阵列数据恢复过程 1.备份数据按照数据恢复流程对所有磁

EVA4400存储RAID信息丢失数据恢复过程

[服务器数据恢复故障分析]在数据恢复行业中经常会遇到因为意外断电导致raid模块硬件损坏或者riad管理信息丢失等raid模块损坏导致数据丢失的情况.正常情况下服务器的raid阵列一旦创建完成后就不再对管理模块中的信息进行更改,不过raid管理模块的信息其实是可修改信息,一次或多次的意外断电是可能造成这部分信息被篡改或丢失的,断电次数过多时甚至可能导致raid卡上的元器损坏.间接导致主机失去对多块物理硬盘进行RAID管理的中间层模块.该客户的服务器就属于这种情况. [服务器数据恢复故障描述]客户

V7000存储7块硬盘离线数据恢复成功率分析

存储设备清单/数据恢复故障:客户的存储设备为一台V7000存储机头加8台存储阵列柜,80块6T机械硬盘组成raid5磁盘阵列,分配为13个lun,Windows操作系统:NTFS文件系统.由于机房漏水导致存储设备进水,7块硬盘报警脱机(包括两块热备盘),两组Mdisk失效,pool无法启动,需要对阵列中全部数据进行数据恢复.故障情况如下图:客户的阵列柜中共创建了8组Mdisk,加到一个pool中,现客户主要数据pool无法加载,其中共十三个通用卷均无法挂载,具体情况如下图所示:数据恢复成功率预估

服务器两块硬盘离线能否强制上线恢复

磁盘阵列两块硬盘离线数据恢复案例一: 客户的一台服务器因为未知的原因导致一块硬盘红灯闪亮,不过服务器还在正常运行,管理员未做处理,随后该服务器内的另一块硬盘出现同样的报警提示,服务器崩溃.数据恢复工程师对该磁盘阵列数据恢复过程如下(下列操作有风险,请备份后再操作):1.将服务器启动,服务器自检时手动进入管理程序查看raid磁盘阵列情况,发现硬盘的状态为Failel,手动将其中一块离线硬盘重新设置为online状态后尝试重启服务器但重启失败.2.将该硬盘重新Fail掉,重复上次的操作步骤将另一块硬

服务器数据恢复案例 / raid5阵列多块硬盘离线处理方法

服务器数据恢复案例一: 某研究院 DELL服务器 磁盘阵列崩溃,内置15块1TB硬盘搭建的RAID5阵列.一开始有一块硬盘离线,在更换新硬盘进行同步的过程中,第二块磁盘指示灯报警,同步失败,阵列无法正常工作.服务器数据恢复检测:最先离线的硬盘访问速度极其缓慢,第二块离线的磁盘有少量坏扇区,其他磁盘无明显物理问题.服务器质逻辑状况:整个阵列只包含一个卷组,该卷组占用阵列全部空间:并且该卷组只有一个起始位置为0扇区的XFS裸分区.制定服务器数据恢复方案:RAID5阵列架构在设计上只支持一块磁盘的错误

服务器磁盘阵列数据恢复方法,raid数据恢复案例

数据恢复故障描述:服务器型号-IBM 3650服务器raid磁盘阵列情况-服务器中共有5块 SAS 300GB 磁盘组成一组RAID5磁盘阵列服务器分区情况介绍-存储划分为一个LUN.3个分区,第一个分区存放的是windows 2003系统,第二个分区用于存储 SQL Server 2010生产库,第三个分区是备份分区. 数据恢复中心初检结果:服务器数据恢复工程师首先对raid磁盘阵列进行初检,发现该服务器中的0号磁盘和4号磁盘出现物理故障离线导致RAID崩溃. 对磁盘阵列进行数据恢复:1.把服