数据恢复过程之:服务器raid5两块硬盘离线数据恢复

服务器故障情况简介:
客户的一台ibm x3850服务器上组了一个raid5磁盘阵列,有两块硬盘离线,服务器崩溃。北亚数据恢复中心工程师对服务器进行初检,客户的磁盘阵列由5块硬盘组成,linux redhat 5.3操作系统,存储一个oracle数据库。阵列中有两块硬盘处于离线状态,热备盘未激活。硬盘无物理故障,无明显同步表现。

数据恢复方案:

1.关闭服务器同时确保在恢复过程中不再开启服务器,将故障盘进行标记后取出槽位挂载至数据恢复公司的备份服务器环境进行镜像备份。完成后恢复原故障服务器。
2.分析备份盘中的raid结构,得到原阵列中的raid界别、条带大小、校验方向、条带规则以及meta区域等信息。
根据分析出来的raid信息虚拟搭建一组raid5环境对磁盘文件系统进行解释,对虚拟结构的正确性检测,数据无误即可回迁数据。

服务器数据恢复及系统复原过程:

  1. 对原硬盘镜像后发现除了2号盘有10-20个坏扇区外其他硬盘均正常。
  2. 对raid结构进行分析,最佳盘序结构是0-1-2-3,缺失3号盘,结构如下图:

    3.组好后数据验证,200M以上的最新压缩包解压无报错,按照这一结构将虚拟raid生成到一块硬盘上,通过USB的方式把恢复后的单盘接入原服务器,通过linux SystemRescueCd启动故障服务器后使用dd命令进行全盘回写。
  3. 数据回写完成后无法进入操作系统,报错信息为:/etc/rc.d/rc.sysinit:Line 1:/sbin/pidof:Permission denied。工程师使用SystemRescueCd重启后检查发现文件的权限、时间、大小都有明显错误,对根分区再次分析定位出错的/sbin/pidof/datahf.net,得出问题原因是2号盘坏道。
  4. 通过其他盘针对2号盘的损坏区域进行xor补齐并重新校验文件系统,依然有错误,工程师只好再次对inode表进行检查,发现2号盘损坏区域有部分节点表现为(图中的55 55 55部分):

    可以看出虽然节点中描述的uid还正常存在,但大小、属性、最初的分配块全部是错误的。通过日志确定原节点块的节点信息后进行修正,重新dd根分区,执行fsck -fn /dev/sda5/datahf.net检测,报错情况如下图:

    经过分析发现,原来3号盘最先离线,节点信息新旧交集导致有多个节点共用数据块,工程师按节点所属的文件进行区别,清除错误节点后,再次执行fsck -fn /dev/sda5,依然有部分位于doc目录下的节点报错,由于不影响启动所以强行修复后重启系统,系统正常,启动数据库正常。此次数据恢复工作成功。

原文地址:http://blog.51cto.com/sun510/2094730

时间: 2024-10-07 12:17:57

数据恢复过程之:服务器raid5两块硬盘离线数据恢复的相关文章

raid5两块硬盘离线数据恢复案例

Riad数据恢复故障概述 北京某公司的一台存储挂载了raid5磁盘阵列,正常使用中存储忽然崩溃,经管理员检查发现raid5阵列中有两块硬盘离线,阵列中共两块热备盘其中一块热备盘激活失败,raid5阵列瘫痪导致存储无法使用.需要进行基于raid5磁盘阵列的数据恢复操作. Raid5阵列数据恢复检测: 硬件工程师首先对raid中两块离线硬盘进行物理检测,硬盘无物理故障,无坏道.该存储上层共一个lun用于sun小机使用,ZFS文件系统. Raid5阵列数据恢复过程 1.备份数据按照数据恢复流程对所有磁

服务器raid5两块硬盘离线vxfs文件系统恢复数据方法

服务器数据恢复故障描述客户的服务器共有8块450GB SAS硬盘,其中7块硬盘组成一个RAID5阵列,1块热备盘.阵列中2块硬盘损坏并离线,导致RAID5阵列瘫痪,进而影响上层LUN无法正常使用.硬盘无物理故障,无坏道.对服务器raid数据恢复过程:1.备份数据使用dd命令或数据恢复工具将所有磁盘镜像成文件.图一:2.分析RAID组结构服务器的LUN都是基于RAID组的,所以需要先对底层RAID组的信息作出分析,再依据这些数据重构原始的RAID组.通过分析得知4号盘为hot Spare盘.继续分

Dell 2850服务器磁盘阵列两块硬盘离线恢复过程

服务器故障描述: 客户使用Dell 2850服务器组建了raid5磁盘阵列,阵列中包含有6块硬盘(SCSI硬盘,单盘容量300G),服务器操作系统为linux Redhat4:文件系统为ext3文件系统.在使用过程中服务器瘫痪,管理员对阵列检查后发现有两块硬盘离线,对其中一块硬盘进行了强制上线操作,但操作系统启动异常.管理员此时意识到事情的严重程度,马上对服务器进行关机,然后联系到数据恢复中心进行数据恢复. 数据恢复中心初检结论: 在服务器数据恢复工作中,raid5两块硬盘离线的情况十分常见,由

EMC FC AX-4存储两块硬盘离线数据恢复方法和数据恢复过程

服务器故障描述:山西某公司一台服务器的EMC FC AX-4存储RAID5磁盘阵列,阵列中共有12块硬盘组成raid5磁盘阵列其中有两块硬盘为热备盘,阵列中硬盘单盘容量为1TB,服务器中有两块硬盘离线,一块热备盘未启用.客户将服务器中所有磁盘带到数据恢复公司.通常情况下造成服务器硬盘离线的原因为磁盘物理故障或者硬盘坏道.但是由于EMC控制器有着十分严格的磁盘检查策略,容易将性能不稳定的硬盘判定为硬件故障提出raid组,所以导致服务器崩溃的原因也有可能是磁盘读写不稳定.服务器数据恢复解决过程:第一

Raid5两块硬盘离线解决方案 -阵列数据恢复案例

#服务器数据恢复背景描述:需要进行数据恢复的磁盘阵列是两组分别由4块600G容量的SAS硬盘组成的raid5磁盘阵列,ext3文件系统.lvm结构.磁盘阵列中1号硬盘离线,热备盘启动同步,在同步过程中同raid中3号硬盘故障掉线,该组Raid阵列崩溃,LVM结构不完整,文件系统无法正常使用,服务器瘫痪.管理员检查了掉线的两块硬盘,1号硬盘无法识别,3号硬盘可以识别.磁盘阵列数据恢复方案:首先对故障硬盘进行修复,这一步需要借助数据恢复软件对故障硬盘进行备份,然后将raid阵列中未掉线的所有硬盘和另

HP存储raid5两块硬盘离线lvm下vxfs文件系统恢复数据方案

故障描述 HP FC MSA2000存储,由于RAID5阵列中出现2块硬盘损坏并离线,而此时只有一块热备盘成功激活,因此导致RAID5阵列瘫痪,上层LUN无法正常使用,用户联系联系北亚数据,整个存储空间由8块450GB SAS的硬盘组成,其中7块硬盘组成一个RAID5的阵列,剩余1块做成热备盘使用. 由于存储是因为RAID阵列中某些磁盘掉线,从而导致整个存储不可用.因此接收到磁盘以后先对所有磁盘做物理检测,检测完后发现没有物理故障.接着使用坏道检测工具检测磁盘坏道,发现也没有坏道. 解决方法:

HP存储raid5两块硬盘离线lvm下vxfs文件系统恢复数据过程

故障描述 HP FC MSA2000存储,由于RAID5阵列中出现2块硬盘损坏并离线,而此时只有一块热备盘成功激活,因此导致RAID5阵列瘫痪,上层LUN无法正常使用,用户联系联系北亚数据,整个存储空间由8块450GB SAS的硬盘组成,其中7块硬盘组成一个RAID5的阵列,剩余1块做成热备盘使用. 由于存储是因为RAID阵列中某些磁盘掉线,从而导致整个存储不可用.因此接收到磁盘以后先对所有磁盘做物理检测,检测完后发现没有物理故障.接着使用坏道检测工具检测磁盘坏道,发现也没有坏道. 解决方法:

两组raid5两块盘掉线数据恢复成功案例-有方案

磁盘阵列两块硬盘离线数据恢复案例一: ····客户使用Dell 2850服务器组建了raid5磁盘阵列,阵列中包含有6块硬盘(SCSI硬盘,单盘容量300G),服务器操作系统为linux Redhat4:文件系统为ext3文件系统.在使用过程中服务器瘫痪,管理员对阵列检查后发现有两块硬盘离线,对其中一块硬盘进行了强制上线操作,但操作系统启动异常.管理员此时意识到事情的严重程度,马上对服务器进行关机,然后联系到数据恢复中心进行数据恢复.····数据恢复中心初检结论:····在服务器数据恢复工作中,

服务器两块硬盘离线能否强制上线恢复

磁盘阵列两块硬盘离线数据恢复案例一: 客户的一台服务器因为未知的原因导致一块硬盘红灯闪亮,不过服务器还在正常运行,管理员未做处理,随后该服务器内的另一块硬盘出现同样的报警提示,服务器崩溃.数据恢复工程师对该磁盘阵列数据恢复过程如下(下列操作有风险,请备份后再操作):1.将服务器启动,服务器自检时手动进入管理程序查看raid磁盘阵列情况,发现硬盘的状态为Failel,手动将其中一块离线硬盘重新设置为online状态后尝试重启服务器但重启失败.2.将该硬盘重新Fail掉,重复上次的操作步骤将另一块硬