某公司数据恢复报告书

  一、故障描述

  1、设备清单


设备名称


设备型号


数量


HP FC存储


HP MSA2000


1


450G SAS.硬盘


8

  2、故障描述

  整个存储空间由8块450GB SAS的硬盘组成,其中7块硬盘组成一个RAID5的阵列,剩余1块做成热备盘使用。由于RAID5阵列中出现2块硬盘损坏,而此时只有一块热备盘成功激活,因此导致RAID5阵列瘫痪,上层LUN无法正常使用。

  二、检测磁盘

  由于存储是因为RAID阵列中某些磁盘掉线,从而导致整个存储不可用。因此接收到磁盘后先对所有磁盘做物理检测,检测完后发现没有物理故障。接着使用坏道检测工具检测磁盘坏道,发现也没有坏道。磁盘坏道检测日志如下图:

  三、备份数据

  考虑到数据的安全性以及可还原性,在做数据恢复之前需要对所有源数据做备份,以防其他原因导致数据无法再次恢复。使用dd命令或winhex工具将所有磁盘都镜像成文件。备份完部分数据如下图:

  四、故障分析

  1、分析故障原因

  由于前两个步骤并没有检测到磁盘有物理故障或者是坏道,由此推断可能是由于某些磁盘读写不稳定导致故障发生。因为HP MSA2000控制器检查磁盘的策略很严格,一旦某些磁盘性能不稳定,HP MSA2000控制器就认为是坏盘,就将认为是坏盘的磁盘踢出RAID组。而一旦RAID组中掉线的盘到达到RAID级别允许掉盘的极限,那么这个RAID组将变的不可用,上层基于RAID组的LUN也将变的不可用。目前初步了解的情况为RAID组的LUN有6个,均分配给HP-Unix小机使用,上层做的LVM逻辑卷,重要数据为Oracle数据库及OA服务端。

  2、分析RAID组结构

  HP MSA2000存储的LUN都是基于RAID组的,因此需要先分析底层RAID组的信息,然后根据分析的信息重构原始的RAID组。分析每一块数据盘,发现4号盘的数据同其它数据盘不太一样,初步认为可能是hot Spare盘。接着分析其他数据盘,分析Oracle数据库页在每个磁盘中分布的情况,并根据数据分布的情况得出RAID组的条带大小,磁盘顺序及数据走向等RAID组的重要信息。

  3、分析RAID组掉线盘

  根据上述分析的RAID信息,尝试通过北亚自主开发的RAID虚拟程序将原始的RAID组虚拟出来。但由于整个RAID组中一共掉线两块盘,因此需要分析这两块硬盘掉线的顺序。仔细分析每一块硬盘中的数据,发现有一块硬盘在同一个条带上的数据和其他硬盘明显不一样,因此初步判断此硬盘可能是最先掉线的,通过北亚自主开发的RAID校验程序对这个条带做校验,发现除掉刚才分析的那块硬盘得出的数据是最好的,因此可以明确最先掉线的硬盘了。

  4、分析RAID组中的LUN信息

  由于LUN是基于RAID组的,因此需要根据上述分析的信息将RAID组最新的状态虚拟出来。然后分析LUN在RAID组中的分配情况,以及LUN分配的数据块MAP。底层有6个LUN,因此只需要将每一个LUN的数据块分布MAP提取出来。然后针对这些信息编写相应的程序,对所有LUN的数据MAP做解析,然后根据数据MAP并导出所有LUN的数据。

  五、LVM逻辑卷及VXFS文件系统修复

  1、解析LVM逻辑卷

  分析生成出来的所有LUN,发现所有LUN中均包含HP-Unix的LVM逻辑卷信息。尝试解析每个LUN中的LVM信息,发现其中一共有三套LVM,其中45G的LVM中划分了一个LV,里面存放OA服务器端的数据,190G的LVM中划分了一个LV,里面存放临时备份数据。剩余4个LUN组成一个2.1T左右的LVM,也只划分了一个LV,里面存放Oracle数据库文件。编写解释LVM的程序,尝试将每套LVM中的LV卷都解释出来,但发现解释程序出错。

  2、修复LVM逻辑卷

  仔细分析程序报错的原因,安排开发工程师debug程序出错的位置,并同时安排高级文件系统工程师对恢复的LUN做检测,检测LVM信息是否会因存储瘫痪导致LVM逻辑卷的信息损坏。经过仔细检测,发现确实因为存储瘫痪导致LVM信息损坏。尝试人工对损坏的区域进行修复,并同步修改程序,重新解析LVM逻辑卷。

  3、解析VXFS文件系统

  搭建HP-Unix环境,将解释出来的LV卷映射到HP-Unix,并尝试Mount文件系统。结果Mount文件系统出错,尝试使用“fsck –F vxfs” 命令修复vxfs文件系统,但修复结果还是不能挂载,怀疑底层vxfs文件系统的部分源数据可能被破坏,需要进行手工修复。

  4、修复VXFS文件系统

  仔细分析解析出来的LV,并根据VXFS文件系统的底层结构校验此文件系统是否完整。分析发现底层VXFS文件系统果然有问题,原来当时存储瘫痪的同时此文件在系统正在执行IO操作,因此导致部分文件系统源文件没有更新以及损坏。人工对这些损坏的源文件进行手工修复,保证VXFS文件系统能够正常解析。再次将修复好的LV卷挂载到HP-Unix小机上,尝试Mount文件系统,文件系统没有报错,成功挂载。

  六、检测Oracle数据库文件并启动数据库

  1、恢复所有用户文件

  在HP-Unix机器上mount文件系统后,将所有用户数据均备份至指定磁盘空间。所有用户数据大小在1.2TB左右。部分文件目录截图如下:

  2、检测数据库文件是否完整

  使用Oracle数据库文件检测工具“dbv”检测每个数据库文件是否完整,发现并没有错误。再使用北亚自主研发的Oracle数据库检测工具(检验更严格),发现有部分数据库文件和日志文件校验不一致,安排高级数据库工程师对此类文件进行修复,并再次校验,直到所有文件校验均完全通过。

  3、启动Oracle数据库

  由于我们提供的HP-Unix环境没有此版本的Oracle数据,因此和用户协调将原始生成环境带至北亚数据恢复中心,然后将恢复的Oracle数据库附加到原始生产环境的HP-Unix服务器中,尝试启动Oracle数据库,Oracle数据库启动成功。部分截图如下:

  七、数据验证

  由用户方配合,启动Oracle数据库,启动OA服务端,在本地笔记本安装OA客户端。通过OA客户端对最新的数据记录以及历史数据记录进行验证,并且有用户安排远程不同部门人员进行远程验证。最终数据验证无误,数据完整,数据恢复成功。

  八、移交数据

  用户方重新购买了8块HP-MSA2000原厂硬盘,由北亚工程师配合重新对HP-MSA2000存储进行配置。创建和原始一样的Volume,并将恢复的数据全部复制到重新配置好的存储中,并验证所有服务能够正常启动,包括Oracle数据库服务,OA服务端等。

  九、数据恢复结论

  由于故障发生后保存现场环境良好,没做相关危险的操作,对后期的数据恢复有很大的帮助。整个数据恢复过程中虽然遇到好多技术瓶颈,但也都一一解决。最终在预期的时间内完成整个数据恢复,恢复的数据用户方也相当满意。

  十、项目成员列表


工程师


姓名


电话


邮箱


商务


张晓娜


185,1528,3863


zxn#frombyte.com


项目主管


邓奇


185,1528,3878


dq#frombyte.com


存储工程师


邓奇


185,1528,3878


dq#frombyte.com


RAID工程


宋国建


185,1528,3861


songguojian#frombyte.com


开发工程师


秦颖吉


185,1528,3871


qyj#frombyte.com


文件系统工程师


宋国建


185,1528,3861


songguojian#frombyte.com


审核工程师


张宇

  工程师职能:

  商务工程师:负责反馈消息给用户

  初检工程师:负责设备初检事宜

  实施工程师:负责设备数据安全救援事宜

  审核工程师:负责每一步流程审核

时间: 2024-10-13 09:58:34

某公司数据恢复报告书的相关文章

硬盘开盘数据恢复-不能不学的硬盘基本知识

最近公司接到的数据恢复案件中有很多都是硬盘硬件损坏导致的数据丢失,由于最近进行的硬盘数据恢复的案例比较多,所以为大家整理了一篇关于硬盘开盘数据恢复的成功率分析和硬盘损坏的简单应对方法,同时无论是台式机硬盘还是服务器硬盘数据恢复都有遇到硬盘硬件损坏导致的数据丢失的情况,下面首先给大家简单介绍两个我公司最近接到的硬盘开盘数据恢复的例子,在保证客户信息保密的情况下简单为大家做个硬盘开盘数据恢复的简介./一家来自北京的公司送来一块某品牌的500G台式机硬盘,接到硬盘以后发现硬盘正面的盘贴已经被揭开过,意

某公司HP-EVA4400存储硬盘离线的数据恢复方法和数据恢复过程

一.故障描述 整个EVA存储结构是由一台EVA4400控制器,三台EVA4400扩展柜和28块FC 300G硬盘构成的.由于两块磁盘掉线导致存储某些LUN不可用,某些LUN丢失.由于EVA4400是因为某些磁盘掉线,从而导致整个存储不可用.因此接收到磁盘以后北亚工程师先对所有磁盘做物理检测,检测完后发现没有物理故障.接着使用坏道检测工具检测磁盘坏道,发现也没有坏道.磁盘坏道检测日志如下: 图一: 二.备份数据 考虑到数据的安全性以及可还原性,在做数据恢复之前需要对所有源数据做备份,以防万一操作不

上海宝山区服务器数据恢复公司哪家好

随着服务器的应用越来越广泛,服务器故障引起的服务器数据丢失给企事业单位以及个人带来重大的损失,不仅使服务器数据丢失这一问题越来越得到大家的重视,而且使得服务器数据恢复成为一种需求. 以SDII9000为例来说,服务器故障有以下常见的几种情况.服务器突然断电造成RAID磁盘阵列卡信息的丢失:服务器在使用的过程中RAID阵列卡固件信息损坏丢失:服务器RAID阵列卡认为误操作删除信息:服务器重新配置RAID阵列信息导致的数据丢失:服务器RAID阵列卡物理损坏更新后系统崩溃:服务器由于某块硬盘掉线:服务

上海宝山周围有专业开盘数据恢复公司吗

开盘数据恢复,主要是指在洁净度有保障的环境下打开硬盘外壳,对其盘腔内部进行操作.因为硬盘坏了,有些朋友或者数据恢复爱好者可能上网查询方尝试开盘恢复数据,结果往往造成数据的永久性丢失.开盘成功率有多高,有很多人其实是不明白到底开盘数据恢复找谁更专业,更能解决问题?以下将具体介绍将什么样的情况下需要做开盘恢复?以及上海专业开盘数据恢复公司哪家比较专业? 什么情况需要开盘数据恢复?我们来了解一点硬盘知识.硬盘的盘腔内包含4个主要功能模块:主轴马达, 碟片.磁头组件, 以及永磁铁.这四个功能模块中,磁头

北京某公司NetApp存储虚拟机数据恢复案例

存储环境部署及存储数据恢复故障的起因:某公司的NetApp FAS-8200存储,使用96块磁盘组建两组存储池,存储池互为镜像.存储池内划分卷并映射到ESXI作为数据存储使用,卷内虚拟机数量约300+.在操作过程中由于未知原因导致卷丢失,卷内虚拟机不可访问.该公司的管理员先进对存储进行了简单的检查和数据恢复但是没有成功,由于存储内有公司重要数据,管理员不敢妄动,只好联系北京的存储数据恢复公司进行专业数据恢复. 一.数据恢复备份 为防止对客户原始磁盘内数据造成破坏,首先分别对各磁盘进行镜像拷贝(在

浪潮服务器硬盘坏道数据恢复

它有一个设计合理.功能强大的内部架构,大幅度提升了性能,但某些物理故障或其他操作都可能会对卷或存储造成破坏,因此对系列存储的数据恢复技术才有了用武之地.而发生这些故障之后只能找专业的数据恢复公司做数据挽救工作.我最近处理了一起浪潮服务器因磁盘故障导致存储不可用的案例: 故障描述: 宁夏某市某局中的一台浪潮服务器,底层是6块300GB SAS硬盘组成的RAID.两块盘亮黄灯,导致RAID5崩溃,存放的是Oracle 数据库文件,在服务器系统的上层一共分了1个卷,卷大小为1.5 TB.后因磁盘故障而

ESXI5.5虚拟机还原快照数据恢复处理办法

现在由于虚拟化技术的兴起,很多企业开始运用虚拟化技术.虚拟化技术的原理就是将硬件虚拟化给不同的虚拟机使用.也就是一台物理的机器上可以有多台虚拟机.但如果物理机器出现故障或者存储服务器出现故障都会导致上层的虚拟机不可用.还有包括员工的误操作等原因.这些都会导致虚拟机里面的重要数据丢失,而弥补这些数据的唯一方法就是恢复数据.今天要说的就是一起vmware虚拟化误操作的数据恢复案例. [环境描述] 1)故障虚拟机是由物理机迁移到ESXI上面的,迁移完成后以防不稳定做了一个快照. 2)虚拟机上运行的是一

数据恢复流程

当我们重要的数据丢失时,一定会想到做数据恢复,但是并不知道数据是怎样恢复的,这个过程是什么样的流程?因此,为了方便初学者学习,本文以RAID卡重新配置,RAID无法正常使用作为案例,着重讲解严格的数据恢复流程,使初学者在实践中找到学习进步的方向. 一.初检 存储介质:16块500G硬盘 故障描述:RAID卡Bios重新配置,导致无法识别16块硬盘中的raid信息,致使RAID无法正常使用. 二.技术流程 1.前期备份流程 A.将原服务器断电.关机. B.小心将原服务器上的所有硬盘标好序号,从服务

32块4TB SATA接口硬盘组成RAID6 128TB MAC苹果服务器数据恢复

32块4TB SATA接口硬盘组成RAID6 128TB MAC苹果服务器数据恢复 故障服务器: 32块4TB SATA接口硬盘组成RAID6 苹果服务器 故障现象: 服务器开机后找不到磁盘阵列上的硬盘,客户与设备供应商沟通后,设备供应商远程将RAID重建RAID5,商家按照自己的方式,将每个柜子16块硬盘先组成一组RAID5再将2组RAID5组成RAID0,但重组后还是看不到客户分区与数据. 恢复方法: 将客户32块硬盘连接到我们服务器恢复设备上进行手动分析,经过几个小时分析后,我们确定结果是