HP FC MSA2000服务器raid数据恢复成功案例

一、服务器数据恢复案例背景:

HP FC MSA2000服务器空间由8块450GB SAS硬盘组成raid5磁盘阵列,一块热备盘。服务器在使用中先后有两块硬盘离线,导致服务器瘫痪,lun无法正常使用。
服务器数据恢复工程师分别对服务器中所有磁盘进行物理检测和坏道检测,均无异常。

二、服务器数据恢复备份

考虑到数据的安全性以及可还原性,在做数据恢复之前需要对所有源数据做备份,以防万一其他原因导致数据无法再次恢复。使用dd命令或winhex工具将所有磁盘都镜像成文件。
备份完部分数据如下图:

三、服务器数据恢复故障原因分析:

目前初步了解的情况为基于RAID组的LUN有6个,均分配给HP-Unix小机使用,上层做的LVM逻辑卷,重要数据为Oracle数据库及OA服务端。由于HP MSA2000服务器中一旦某些磁盘性能不稳定,HP MSA2000控制器将其认为是坏盘的磁盘踢出RAID组。而一旦RAID组中掉线的盘到达到RAID级别允许掉盘的极限,那么这个RAID组将变的不可用,导致服务器瘫痪。

四、分析服务器RAID组结构:

服务器的LUN都是基于RAID组的,要想恢复服务器数据就需要先分析底层RAID组的信息,然后根据分析的信息重构原始的RAID组。分析每一块数据盘,发现4号盘的数据同其它数据盘不太一样,初步认为可能是hot Spare盘。接着分析其他数据盘,分析Oracle数据库页在每个磁盘中分布的情况,并根据数据分布的情况得出RAID组的条带大小,磁盘顺序及数据走向等RAID组的重要信息。

五、分析服务器RAID组掉线盘

根据上述分析的RAID信息,尝试通过北亚自主开发的RAID虚拟程序将原始的RAID组虚拟出来。但由于整个RAID组中一共掉线两块盘,因此需要分析这两块硬盘掉线的顺序。仔细分析每一块硬盘中的数据,发现有一块硬盘在同一个条带上的数据和其他硬盘明显不一样,因此初步判断此硬盘可能是最先掉线的,通过北亚自主开发的RAID校验程序对这个条带做校验,发现除掉刚才分析的那块硬盘得出的数据是最好的,因此可以明确最先掉线的硬盘了。

六、分析RAID组中的LUN信息

由于LUN是基于RAID组的,因此需要根据上述分析的信息将RAID组最新的状态虚拟出来。然后分析LUN在RAID组中的分配情况,以及LUN分配的数据块MAP。由于底层有6个LUN,因此只需要将每一个LUN的数据块分布MAP提取出来。然后针对这些信息编写相应的程序,对所有LUN的数据MAP做解析,然后根据数据MAP并导出所有LUN的数据。
导出的数据如下图:

七、服务器LVM逻辑卷及VXFS文件系统修复

分析生成出来的所有LUN,发现所有LUN中均包含HP-Unix的LVM逻辑卷信息。尝试解析每个LUN中的LVM信息,发现其中一共有三套LVM,其中45G的LVM中划分了一个LV,里面存放OA服务器端的数据,190G的LVM中划分了一个LV,里面存放临时备份数据。剩余4个LUN组成一个2.1T左右的LVM,也只划分了一个LV,里面存放Oracle数据库文件。编写解释LVM的程序,尝试将每套LVM中的LV卷都解释出来,但发现解释程序出错。
仔细分析程序报错的原因,安排开发工程师debug程序出错的位置,并同时安排高级文件系统工程师对恢复的LUN做检测,检测LVM信息是否会因存储瘫痪导致LMV逻辑卷的信息损坏。经过仔细检测,发现确实因为存储瘫痪导致LVM信息损坏。尝试人工对损坏的区域进行修复,并同步修改程序,重新解析LVM逻辑卷。
搭建HP-Unix环境,将解释出来的LV卷映射到HP-Unix,并尝试Mount文件系统。结果Mount文件系统出错,尝试使用“fsck –F vxfs” 命令修复vxfs文件系统,但修复结果还是不能挂载,怀疑底层vxfs文件系统的部分元数据可能破坏,需要进行手工修复。
仔细分析解析出来的LV,并根据VXFS文件系统的底层结构校验此文件系统是否完整。分析发现底层VXFS文件系统果然有问题,原来当时存储瘫痪的同时此文件在系统正在执行IO操作,因此导致部分文件系统元文件没有更新以及损坏。人工对这些损坏的元文件进行手工修复,保证VXFS文件系统能够正常解析。再次将修复好的LV卷挂载到HP-Unix小机上,尝试Mount文件系统,文件系统没有报错,成功挂载。

八、检测Oracle数据库文件并启动数据库

在HP-Unix机器上mount文件系统后,将所有用户数据均备份至指定磁盘空间。所有用户数据大小在1.2TB左右。
部分文件目录截图如下:

使用Oracle数据库文件检测工具“dbv”检测每个数据库文件是否完整,发现并没有错误。再使用北亚自主研发的Oracle数据库检测工具(检验更严格),发现有部分数据库文件和日志文件校验不一致,安排高级数据库工程师对此类文件进行修复,并在次校验,直到所有文件校验均完全通过。
由于我们提供的HP-Unix环境没有此版本的Oracle数据,因此和用户协调将原始生成环境带至北亚数据恢复中心,然后将恢复的Oracle数据库附加到原始生产环境的HP-Unix服务器中,尝试启动Oracle数据库,Oracle数据库启动成功。
部分截图如下:

九、服务器数据恢复成功:

启动Oracle数据库,启动OA服务端,在本地笔记本安装OA客户端。通过OA客户端对最新的数据记录以及历史数据记录进行验证,并且有用户安排远程不同部门人员进行远程验证。最终数据验证无误,数据完整,数据恢复成功。

原文地址:http://blog.51cto.com/sun510/2147735

时间: 2024-10-20 15:34:55

HP FC MSA2000服务器raid数据恢复成功案例的相关文章

服务器Raid数据恢复成功案例和raid 5数据恢复算法原理

服务器Raid 5数据恢复案例本次分享的案例是一台服务器中的raid磁盘阵列,磁盘阵列中有12块磁盘,单盘容量500G,ext3文件系统,系统平台为Linux平台.Raid中2号盘和6号盘两块硬盘报黄灯,管理人员检查后对6号盘进行了强制上线操作,强制上线后发现多数目录打不开,可以打开的目录中有部分目录中出现文件丢失情况.客户联系到北亚数据恢复中心进行raid磁盘阵列的数据恢复. 1.首先分析原raid结构,将强制上线的6号盘去掉,将2号盘加入进去,通过虚拟环境搭建raid平台.2.然后通过软件进

Raid5磁盘阵列数据恢复,服务器raid数据恢复步骤和方法

[磁盘阵列数据恢复故障描述]客户的一台HP DL380 G4服务器,服务器使用hp smart array控制器挂载了一台国产磁盘阵列,磁盘阵列由14块146G SCSI硬盘组成一组RAID5.操作系统为LINUX,构建了NFS+FTP,作为公司内部文件服务器使用.由于服务器机房进行搬迁,搬迁过程中管理员顺便打扫了一下服务器和磁盘阵列设备,随后在新机房链接线路后服务器无法识别RAID,未做初始化. [对raid5阵列的初检结果]工程师对设备进行简单的初检,发现数据丢失的原因为raid信息丢失,H

关于hp proliant sl210t服务器raid 1阵列配置

hp proliant sl210t服务器,一般都会带有两个阵列卡 一个服务器自带的Dynamic Smart Array B120i RAID控制器,一个为Slot卡槽上的Smart Array P420控制器 这里我们使用Smart Array P420对服务器的磁盘进行raid 1类型的阵列配置,配置过程如下: 1.服务器开机到如下界面时,选择F11进入Boot Menu选项(另有一说,可使用F8进入rail配置,未测试) 2.在接下来的界面中,到出现HP Smart Array P420

光纤存储重组raid磁盘阵列和raid数据恢复成功案例

今天我给大家分享的是一篇关于raid磁盘阵列数据恢复的案例,本案例中包含了对磁盘阵列的修复和重组过程,raid数据恢复中的方法比较通用,希望在数据恢复方面对大家有所帮助. Raid阵列情况介绍: 需要进行数据恢复的阵列搭建在一台某品牌的S5020型号光纤存储上.这个磁盘阵列中一共包含了14块硬盘,其中10号硬盘和13号硬盘出现了故障警报,卷也无法挂载,存储无法继续工作,需要对存储进行数据恢复并修复其中的数据库. 开始恢复raid磁盘阵列: 通过storage manager连接这台存储设备进行查

服务器数据恢复成功案例+服务器数据恢复通用原理

服务器数据恢复案例一:某研究院 DELL服务器 磁盘阵列崩溃,内置15块1TB硬盘搭建的RAID5阵列.一开始有一块硬盘离线,在更换新硬盘进行同步的过程中,第二块磁盘指示灯报警,同步失败,阵列无法正常工作.服务器数据恢复检测:最先离线的硬盘访问速度极其缓慢,第二块离线的磁盘有少量坏扇区,其他磁盘无明显物理问题.服务器质逻辑状况:整个阵列只包含一个卷组,该卷组占用阵列全部空间:并且该卷组只有一个起始位置为0扇区的XFS裸分区.制定服务器数据恢复方案:RAID5阵列架构在设计上只支持一块磁盘的错误冗

联想Lenovo服务器RAID阵列数据恢复

服务器作为数据集中存储和管理的地方,一旦其发生故障,会给用户和企业带来非常大数据损失.联想作为目前比较热门的服务器品牌,被很多企业所使用,也伴随着越来越多联想服务器数据恢复问题的出现.其中一种就是服务器raid卡损坏的数据恢复问题.那么,有没有方法能够解决联想Lenovo服务器RAID阵列数据恢复呢? 引起联想服务器数据丢失的常见故障有6种:lenovo联想服务器RAID阵列信息丢失,造成整台服务器无法启动:lenovo联想服务器硬盘一块硬盘掉线,报红灯,系统服务无法启动:将lenovo联想服务

服务器磁盘阵列数据恢复方法,raid数据恢复案例

数据恢复故障描述:服务器型号-IBM 3650服务器raid磁盘阵列情况-服务器中共有5块 SAS 300GB 磁盘组成一组RAID5磁盘阵列服务器分区情况介绍-存储划分为一个LUN.3个分区,第一个分区存放的是windows 2003系统,第二个分区用于存储 SQL Server 2010生产库,第三个分区是备份分区. 数据恢复中心初检结果:服务器数据恢复工程师首先对raid磁盘阵列进行初检,发现该服务器中的0号磁盘和4号磁盘出现物理故障离线导致RAID崩溃. 对磁盘阵列进行数据恢复:1.把服

服务器raid常见故障分析 附数据恢复方案

Raid磁盘阵列是一种将多块物理硬盘整合成一个虚拟存储的技术,raid模块相当于一个存储管理中间层,上层接收并执行操作系统及文件系统的数据读写指令,下层管理数据在各个物理硬盘上的存储及读写,相对于单独的物理硬盘,raid可以为用户提供更大的独立存储空间,更快的读写速度,更高的数据存储安全及更方便的统一管理模式.Raid磁盘阵列的正常运转是保障服务器中数据正常读写的关键所在.服务器raid损坏的常见特征:1.Raid磁盘阵列中有多快物理硬盘指示灯报警.2.磁盘阵列中显示多块硬盘呈离线状态或丢失状态

两组raid5两块盘掉线数据恢复成功案例-有方案

磁盘阵列两块硬盘离线数据恢复案例一: ····客户使用Dell 2850服务器组建了raid5磁盘阵列,阵列中包含有6块硬盘(SCSI硬盘,单盘容量300G),服务器操作系统为linux Redhat4:文件系统为ext3文件系统.在使用过程中服务器瘫痪,管理员对阵列检查后发现有两块硬盘离线,对其中一块硬盘进行了强制上线操作,但操作系统启动异常.管理员此时意识到事情的严重程度,马上对服务器进行关机,然后联系到数据恢复中心进行数据恢复.····数据恢复中心初检结论:····在服务器数据恢复工作中,