服务器数据恢复案例探究

一、故障描述


整个服务器的存储空间由6块SAS硬盘组成,其中5块硬盘组成一个RAID5的阵列,剩余1块做成热备盘使用。由于RAID5阵列中出现1块硬盘故障,所以服务器存储中的热备盘成功激活,在进行同步的过程中又一块硬盘出现故障,因此导致RAID5阵列瘫痪,上层LUN无法正常使用,服务器崩溃。服务器数据恢复工程师与硬件数据恢复工程师同时对客户存储进行检测发现该服务器存储中的硬盘存在有物理故障。
·

二、服务器存储数据恢复故障检测

IBM服务器存储的LUN都是基于RAID组的,因此要进行服务器数据恢复需要先分析底层RAID组的信息,然后根据分析的信息重构原始的RAID组。分析每一块数据盘,发现一块盘的数据同其它数据盘不太一样,初步认为可能是HotSpare盘。接着分析其他数据盘,分析Oracle数据库页在每个磁盘中分布的情况,并根据数据分布的情况得出RAID组的条带大小,磁盘顺序及数据走向等RAID组的重要信息。
服务器数据恢复中由于LUN是基于RAID组的,因此需要根据上述分析的信息将RAID组最新的状态虚拟出来。然后分析LUN在RAID组中的分配情况,以及LUN分配的数据块MAP进行服务器数据恢复。因此只需要将LUN的数据块分布MAP提取出来。然后针对这些信息编写相应的程序,LUN的数据MAP做解析,然后根据数据MAP并导出LUN的数据。
·

三、存储数据恢复实施方案

1、实施方案一
对恢复的服务器存储内包含Oracle数据库的LUN进行JFS2文件系统解析,并对文件系统不完整的地方进行人工修复。利用自主开发的JFS2文件系统解析工具解析恢复的LUN,然后恢复文件系统中所有的Oracle数据库文件,并检测Oracle数据库的文件是否完整。
对检测有坏块的数据库文件采用扫Oracle碎片的方式扫描所有磁盘,并将扫描的数据页进行组合,然后人工将有坏块的数据库文件给填补修复完整。
在恢复完所有Oracle数据库之后,发现其应用SAP还是无法正常使用,因SAP应用的一些重要数据也是存放在损坏的存储中,缺失这些数据的话SAP即使在数据库完整的情况下也是无法正常使用,因此还需采用方案二来恢复所有SAP的重要数据。
2、实施方案二
对恢复的服务器存储内所有LUN都进行文件系统解析,并将包含SAP的数据LUN进行文件系统的一致性检测。对文件系统不完整的地方进行人工修复,最后恢复所有SAP及SAP Test的数据,在本次服务器数据恢复案例中由于SAP的目录及数据较多,因此恢复的过程比较负责。
利用专业手段对SAP的数据进行检测,并对损坏的数据进行修复,确保恢复的所有SAP数据均是完整的,这样才能保证SAP应用能够完整启动。
接下来利用恢复的SAP数据结合之前恢复的数据库,即可启动SAP及所有应用了。
·

四、启动并修复Oracle数据及SAP应用

1、启动数据库并修复
把恢复的数据库文件还原到已搭建好的环境中,并尝试启动数据库。在启动过程中由于数据库的一些临时文件校验不一致导致数据库启动失败,之后协调我们Oracle数据库专家远程对数据库进行修复,在经过漫长时间的修复之后,数据库启动没有问题,数据库中的所有用户及所有表均完整,之后尝试启动SAP。
2、启动SAP并修复
将恢复的SAP文件还原至已搭建好的环境中,并按照之前的启动脚本启动SAP,之后SAP启动正常,但SAP中用户权限及使用不太正常,SAP表现为没有序列号。初步怀疑可能SAP的注册文件没有恢复,重新检测恢复过程,排查可能疏忽的步骤。结果确实因为文件系统的损坏导致某些文件没有恢复,重新修复文件系统,恢复这些数据。之后启动SAP正常,使用也正常。
·

五、服务器存储数据恢复成功

由用户方配合,启动用户服务器内的Oracle数据库,启动SAP,并通过SAP客户端验证SAP中所有的数据是否完整,最有验证结果为数据完整恢复,SAP能够正常使用,本次服务器存储数据恢复成功。

原文地址:https://blog.51cto.com/sun510/2383192

时间: 2024-10-13 00:59:53

服务器数据恢复案例探究的相关文章

服务器数据恢复案例 / raid5阵列多块硬盘离线处理方法

服务器数据恢复案例一: 某研究院 DELL服务器 磁盘阵列崩溃,内置15块1TB硬盘搭建的RAID5阵列.一开始有一块硬盘离线,在更换新硬盘进行同步的过程中,第二块磁盘指示灯报警,同步失败,阵列无法正常工作.服务器数据恢复检测:最先离线的硬盘访问速度极其缓慢,第二块离线的磁盘有少量坏扇区,其他磁盘无明显物理问题.服务器质逻辑状况:整个阵列只包含一个卷组,该卷组占用阵列全部空间:并且该卷组只有一个起始位置为0扇区的XFS裸分区.制定服务器数据恢复方案:RAID5阵列架构在设计上只支持一块磁盘的错误

服务器数据恢复案例之xfs数据丢失数据恢复方法

今天为大家分享的是一例服务器linux系统下xfs文件系统数据丢失的案例,武汉某公司的服务器出现故障,管理员使用xfs_repair工具修复文件系统,但文件系统修复失败导致服务器中数据全部丢失,经过多方咨询与比较后,客户联系到北京数据恢复公司,由于客户数据涉及保密且恢复难度较大,数据恢复中心从北京总部派出服务器数据恢复工程师前往客户现场进行数据恢复.一.服务器 故障描述客户服务器为linux服务器,连接一台华为存储.客户使用的文件系统为XFS文件系统,在一次机器故障中,客户使用xfs_repai

EMC CX4-480服务器数据恢复案例

[用户信息]上海某公司[故障描述]需要进行数据恢复的设备是一台EMC CX4的存储服务器,因为硬盘出现故障导致整个存储阵列瘫痪.整个LUN是由7块1TB的硬盘组成的RAID 5.但服务器共有10块硬盘,其中有3块是以前存储中掉线的硬盘.(服务器存储在使用过程中有硬盘掉线了,但客户只是添加了一块的新的硬盘做rebuild,并没有将掉线的硬盘拔掉,所以就多出了3块).因客户说是存储服务器中有些硬盘有故障才导致存储服务器不可用的,所以初步判断是RAID中有硬盘掉线了.将所有硬盘交给硬件工程师检测硬盘是

服务器数据恢复案例_xfs数据丢失的数据恢复过程

简介:太原一家公司的服务器出现故障,服务器是linux服务器,连接了一台某型号的存储,文件系统为xfs文件系统.管理员使用xfs_repair工具试图对文件系统进行修复但修复失败,linux服务器中所有数据因此丢失.管理员在北京的数据恢复公司中选择了我们进行相关咨询,由于客户数据涉密且恢复难度较大,我们从北京总部派出服务器数据恢复工程师前往客户现场进行服务器数据恢复. 服务器数据恢复解决方案:为了不损毁客户丢失数据盘里的数据,数据恢复的第一步必须对客户的原始存储空间开进行镜像备份工作,数据备份完

服务器数据恢复案例介绍;服务器崩溃修复

服务器数据恢复过程: 某法院的一台服务器由于硬盘出现故障导致服务器崩溃,在当地一家数据恢复机构进行了数据恢复操作,但是数据恢复没有成功,于是负责人在北京寻找数据恢复公司进行数据恢复.这台服务器的基本配置情况如下图中所示.该服务器负责人携带服务器内的所有硬盘来到北京数据恢复中心,硬件工程师首先对所有硬盘进行物理检测,经检测未发现硬盘物理故障,也就是说该服务器崩溃的原因并不是硬盘故障.服务器数据恢复工程师对硬盘进行了全盘镜像并分析镜像文件尝试找出服务器故障原因.经过分析发现服务器内至少有2块硬盘离线

IBM V7000数据恢复过程;服务器数据恢复成功率分析

IBM V7000存储是一款定位中端的存储设备,很多企业选择该服务器作为存储,最近北亚数据恢复中心接到一例V7000服务器数据恢复案例,下面将对本次数据恢复的过程和数据恢复方法进行归纳总结,希望对各位管理员在服务器的运维工作有所帮助.服务器状态介绍:需要进行数据恢复的服务器故障表现为vdisk丢失,操作系统中的数据库无法正常使用.管理员重建MDisk,原来的raid10重建为raid6,然后又再次重建为riad10,这一系列的操作导致服务器对应的存储池中的VDisk丢失,从而影响上层Solari

服务器数据恢复成功案例+服务器数据恢复通用原理

服务器数据恢复案例一:某研究院 DELL服务器 磁盘阵列崩溃,内置15块1TB硬盘搭建的RAID5阵列.一开始有一块硬盘离线,在更换新硬盘进行同步的过程中,第二块磁盘指示灯报警,同步失败,阵列无法正常工作.服务器数据恢复检测:最先离线的硬盘访问速度极其缓慢,第二块离线的磁盘有少量坏扇区,其他磁盘无明显物理问题.服务器质逻辑状况:整个阵列只包含一个卷组,该卷组占用阵列全部空间:并且该卷组只有一个起始位置为0扇区的XFS裸分区.制定服务器数据恢复方案:RAID5阵列架构在设计上只支持一块磁盘的错误冗

IBM服务器 三块SAS 1TB 硬盘组成RAID5,同时离线数据恢复案例

IBM服务器 三块SAS 1TB 硬盘组成RAID5,同时离线数据恢复案例 一:故障服务器:硬盘同时离线,数据无法访问. 二:修复方法: 1:将硬盘接上专业设备进行全盘镜像. 2:将镜像出来的三个文件进行手工分析 3:分析步骤如下. 打开 winhex查找十六进制(46494C45) MFT 文件记录编号,三个硬盘分析结果如下图: 客户单盘信息 4:用winhex创建RAID5,选择硬盘.盘序和块大小,同异步就是我们上面分析出来的结果. 5:创建RAID5后,三个分区显示都正常. 6:打开最后一

raid数据恢复,Raid5磁盘阵列数据恢复案例,服务器数据恢复

服务器数据恢复用户:江西省某大学服务器数据恢复故障描述:用户使用的是曙光某型号16盘位光纤存储柜,底层存储介质为16块600GB 光纤磁盘,做成两组RAID5磁盘阵列,每组raid中有7块磁盘,另两块磁盘做成全局热备磁盘.第一组RAID磁盘阵列分有3个LUN,分别分配给一台linux主机.一台sun小型机和esxi主机.第二组RAID全部给了一台ESXI5.0主机,存储约有10台虚拟机数据.服务器磁盘阵列故障发生过程:存储磁盘报警,服务器存储原厂技术人员对raid磁盘阵列进行更换磁盘的操作,并对