IBM x3850X5服务器硬盘离线数据恢复的过程

服务器数据恢复背景介绍:

客户的一台ibm x3850X5服务器上有两块硬盘由于未知故障离线,导致服务器数据丢失,需要进行数据恢复。数据恢复中心安排服务器数据恢复工程师对客户的故障服务器进行初检,客户服务器由5块硬盘组成raid5磁盘阵列、linux redhat 5.3操作系统、存储一个oracle数据库。阵列中有两块硬盘处于离线状态,热备盘未激活。硬盘无物理故障,无明显同步表现。

数据恢复中心数据恢复方案:

将故障服务器关机并保证在数据恢复过程中保持服务器关机状态,将故障盘进行标记后取出槽位挂载至数据恢复的备份服务器环境进行镜像备份。完成后恢复原故障服务器。
分析备份盘中的raid结构,得到原阵列中的raid界别、条带大小、校验方向、条带规则以及meta区域等信息。
根据分析出来的raid信息虚拟搭建一组raid5环境对磁盘文件系统进行解释,对虚拟结构的正确性检测,数据无误即可回迁数据。

服务器数据恢复及系统复原过程:

  1. 对原硬盘镜像后发现除了2号盘有10-20个坏扇区外其他硬盘均正常。
  2. 对raid结构进行分析,最佳盘序结构是0-1-2-3,缺失3号盘,结构如下图:

    组好后数据验证,200M以上的最新压缩包解压无报错,按照这一结构将虚拟raid生成到一块硬盘上,通过USB的方式把恢复后的单盘接入原服务器,通过linux SystemRescueCd启动故障服务器后使用dd命令进行全盘回写。
  3. 数据回写完成后无法进入操作系统,报错信息为:/etc/rc.d/rc.sysinit:Line 1:/sbin/pidof:Permission denied。工程师使用SystemRescueCd重启后检查发现文件的权限、时间、大小都有明显错误,对根分区再次分析定位出错的/sbin/pidof/datahf.net,得出问题原因是2号盘坏道。
  4. 通过其他盘针对2号盘的损坏区域进行xor补齐并重新校验文件系统,依然有错误,工程师只好再次对inode表进行检查,发现2号盘损坏区域有部分节点表现为(图中的55 55 55部分):

    可以看出虽然节点中描述的uid还正常存在,但大小、属性、最初的分配块全部是错误的。通过日志确定原节点块的节点信息后进行修正,重新dd根分区,执行fsck -fn /dev/sda5/datahf.net检测,报错情况如下图:

    经过分析发现,原来3号盘最先离线,节点信息新旧交集导致有多个节点共用数据块,工程师按节点所属的文件进行区别,清除错误节点后,再次执行fsck -fn /dev/sda5,依然有部分位于doc目录下的节点报错,由于不影响启动所以强行修复后重启系统,系统正常,启动数据库正常。

服务器数据恢复结论:

由客户方工程师对服务器数据进行验证,数据正常,数据恢复100%成功。

原文地址:http://blog.51cto.com/sun510/2152171

时间: 2024-11-09 02:18:33

IBM x3850X5服务器硬盘离线数据恢复的过程的相关文章

案例讲解服务器硬盘离线数据恢复方法-数据恢复

服务器硬盘物理故障情况简介: 服务器简单来说就是计算机的一种,具有高速的CPU运算能力.长时间的可靠运行.强大的I/O外部数据吞吐能力以及更好的扩展性.多数企业配备有自己的服务器,同时也带来了服务器故障导致数据丢失的困惑,毕竟更换一台新设备无法恢复原有的设备,今天给大家简单介绍一下服务器硬盘故障导致数据丢失后的数据恢复方法,下面是案例背景. 北京某公司的一台服务器出现了硬盘故障,导致服务器瘫痪,数据丢失.经数据恢复中心服务器数据恢复工程师前往客户现场了检测发现,客户的服务器组建了raid5磁盘阵

EMC FC AX-4存储两块硬盘离线数据恢复方法和数据恢复过程

服务器故障描述:山西某公司一台服务器的EMC FC AX-4存储RAID5磁盘阵列,阵列中共有12块硬盘组成raid5磁盘阵列其中有两块硬盘为热备盘,阵列中硬盘单盘容量为1TB,服务器中有两块硬盘离线,一块热备盘未启用.客户将服务器中所有磁盘带到数据恢复公司.通常情况下造成服务器硬盘离线的原因为磁盘物理故障或者硬盘坏道.但是由于EMC控制器有着十分严格的磁盘检查策略,容易将性能不稳定的硬盘判定为硬件故障提出raid组,所以导致服务器崩溃的原因也有可能是磁盘读写不稳定.服务器数据恢复解决过程:第一

IBM ds4700存储硬盘离线数据恢复-北亚案例

服务器数据恢复背景 本次恢复数据的服务器为一台IBM DS4700 光纤存储,该公司管理员提供的信息如下:服务器型号为IBM DS4700 存储,挂载14块硬盘,存储oracle数据库,两块硬盘报黄灯错误,目前raid组崩溃/卷无法挂载/业务全部瘫痪,需要进行紧急数据恢复处理. 服务器数据恢复检测过程 服务器数据恢复工程师首先对服务器进行检查,通过IBM storage manager/frombyte.com连接存储查看服务器存储当前状态,存储报告逻辑卷状态失败.然后对物理磁盘状态进行查看,发

IBM服务器 三块SAS 1TB 硬盘组成RAID5,同时离线数据恢复案例

IBM服务器 三块SAS 1TB 硬盘组成RAID5,同时离线数据恢复案例 一:故障服务器:硬盘同时离线,数据无法访问. 二:修复方法: 1:将硬盘接上专业设备进行全盘镜像. 2:将镜像出来的三个文件进行手工分析 3:分析步骤如下. 打开 winhex查找十六进制(46494C45) MFT 文件记录编号,三个硬盘分析结果如下图: 客户单盘信息 4:用winhex创建RAID5,选择硬盘.盘序和块大小,同异步就是我们上面分析出来的结果. 5:创建RAID5后,三个分区显示都正常. 6:打开最后一

数据恢复过程之:服务器raid5两块硬盘离线数据恢复

服务器故障情况简介:客户的一台ibm x3850服务器上组了一个raid5磁盘阵列,有两块硬盘离线,服务器崩溃.北亚数据恢复中心工程师对服务器进行初检,客户的磁盘阵列由5块硬盘组成,linux redhat 5.3操作系统,存储一个oracle数据库.阵列中有两块硬盘处于离线状态,热备盘未激活.硬盘无物理故障,无明显同步表现.数据恢复方案:1.关闭服务器同时确保在恢复过程中不再开启服务器,将故障盘进行标记后取出槽位挂载至数据恢复公司的备份服务器环境进行镜像备份.完成后恢复原故障服务器.2.分析备

raid5两块硬盘离线数据恢复案例

Riad数据恢复故障概述 北京某公司的一台存储挂载了raid5磁盘阵列,正常使用中存储忽然崩溃,经管理员检查发现raid5阵列中有两块硬盘离线,阵列中共两块热备盘其中一块热备盘激活失败,raid5阵列瘫痪导致存储无法使用.需要进行基于raid5磁盘阵列的数据恢复操作. Raid5阵列数据恢复检测: 硬件工程师首先对raid中两块离线硬盘进行物理检测,硬盘无物理故障,无坏道.该存储上层共一个lun用于sun小机使用,ZFS文件系统. Raid5阵列数据恢复过程 1.备份数据按照数据恢复流程对所有磁

数据库数据恢复实验过程

进入数据库操作,难免会出现一些误操作.这时就需要我们对数据进行恢复.一下介绍一下如何将表中的内容删除后进行恢复的过程. 首先我们模拟一下实验环境: 将数据库安装好之后进入到/etc/my.cnf中 查看是否启用了日志功能(数据恢复是根据日志来进行恢复的.) 在此环境已经设置好了. 之后进入数据库中新建一个库命名未vianet_bss 进入库中并新建一个表命名为stb_active create table stb_active (SERVER_ID char(5),SERVER_CODE cha

服务器数据恢复方法之存储raid硬盘离线数据恢复案例

[故障描述]某法院的一台HP-P4500的存储系统,底层是12块1TB的硬盘组的RAID.其中每6个1TB的盘一组,第一组的前面一部分组了一个RAID0+1,是存放HP-P4500嵌入式系统,接着组了一个RAID5存放数据,第二组组了一个RAID5.在存储系统上层一共分了两个卷,卷大小一个为3TB,一个为5TB.后来因磁盘故障导致存储不可用,客户先请HP的工程做更换磁盘,强制上线,但存储还是不可用.最后才联系我们做数据恢复. [硬件检测]我们的硬件工程师先对客户的12块硬盘做了硬件检测,发现客户

V7000存储7块硬盘离线数据恢复成功率分析

存储设备清单/数据恢复故障:客户的存储设备为一台V7000存储机头加8台存储阵列柜,80块6T机械硬盘组成raid5磁盘阵列,分配为13个lun,Windows操作系统:NTFS文件系统.由于机房漏水导致存储设备进水,7块硬盘报警脱机(包括两块热备盘),两组Mdisk失效,pool无法启动,需要对阵列中全部数据进行数据恢复.故障情况如下图:客户的阵列柜中共创建了8组Mdisk,加到一个pool中,现客户主要数据pool无法加载,其中共十三个通用卷均无法挂载,具体情况如下图所示:数据恢复成功率预估