记录一次raid信息丢失的成功恢复过程,恢复结果极度舒适

【存储raid阵列故障的起因】

事情的起因是这样的,这次经历的数据恢复设备为DL380系列存储,存储中存储的是客户公司内部文件和机密信息。存储上共有6块硬盘组成raid5阵列,在正常使用过程中存储突然崩溃,强制重启后无法找到存储设备,再重启还是这样。客户于是联系我们进行存储层面的数据恢复。
·

【数据恢复故障分析】

经过和硬件部门同事的一同检测和分析,大致可以推断客户这台存储的故障应该是raid模块损坏,一般出现这种raid信息丢失或者raid模块硬件损坏的原因多是由于多次的断电造成的。说回到本次数据恢复过程中来,经过与客户的沟通得知这台存储确实经历过不正常的断电关机,但当时并未出现异常因此并未引起重视,直到存储崩溃后也没有意识到这次故障与以前的意外断电有联系。现在客户存储上的这6块硬盘已经都没有办法通过正常途径来进行提取了,想要提取数据只能进行数据恢复。
·

【数据恢复过程记录】

1.既然存储已经崩溃,我们首先要确定的就是硬盘有没有物理损坏。Raid模块损坏到目前为止也只是推测,要想确定故障原因还是要按照数据恢复流程进行检测。于是硬件部门的同时协助我们对客户的6块硬盘依次进行了物理检测,所有硬盘正常,没有物理损坏。
2.硬盘没有物理损坏,硬件部门同事的工作也就结束了。剩下的工作就由我们进行数据恢复操作了,首先是在我们内部准备了一台带有冗余功能的存储作为数据恢复平台,把这6块盘全部都镜像到数据恢复平台上。
3.接下来就是繁重的数据恢复工作了,首先分析了这个阵列的raid结构以及所有硬盘在阵列中的盘序、校验方式和数据块大小,分析过程持续了两天终于宣告完成。接下来就利用这些分析得到的数据重新构建了一组raid5阵列。
4.数据恢复工作进行到这一步就可以进行逻辑校验了,逻辑校验没问题后才可以让客户进行数据验证。虽然校验成功后依然有客户验证数据恢复不通过的可能性,但是毕竟是少数,可以说是成败在此一举。
5.非常幸运,验证通过。客户对数据恢复结果再进行验证也完全达到了存储发生故障前的状态,本次数据恢复工作圆满结束。由于客户的数据涉密级别高且对时间要求比较紧急,这次的存储数据恢复工作从检测到客户验证通过整整用了3天时间,在数据恢复的过程中也是一直保持在紧张的状态,好在数据恢复成功可以好好的放松一下紧张的心情了。

【存储数据安全小贴士】

1.存储在工作时尽量保障电源稳定,关机时要采取正常的关机方式而不是直接断电(这里不要笑,确实有一部分人喜欢直接断电而不是正常关机)。
2.服役年限比较久了的一些老设备要勤检查,尤其是受过伤但依然在运行的设备更要分外上心,随时注意工作状态随时维护。例如这次恢复的存储,意外断电后并没有马上出现故障而是平安运行了一段时间后才突然崩溃,一下让人措手不及了。
3.最终要的一点就是对数据做好备份,抄袭一句话“数据千万条,备份第一条”有了备份文件,就算是服务器崩溃了也可以做到有备无患,从容的进行修复而不会影响正常业务。

原文地址:https://blog.51cto.com/sun510/2408515

时间: 2024-07-29 07:02:46

记录一次raid信息丢失的成功恢复过程,恢复结果极度舒适的相关文章

存储linux RAID6中raid信息丢失数据恢复解决方法

数据恢复故障描述: 原存储为12块2T硬盘组成的Linux RAID6,文件系统均为EXT3,此存储上划有3个LUN,每个均为6TB大小,某天在RAID失效后,维护人员为了抢救数据,对此失效的存储重进行分配RAID,并进行了初始化.初始化进行很长时间后,维护人员察觉到情况有异,便强制停止初始化,但初始化已达到 50%以上.数据部分已被不可逆的破坏.数据恢复故障分析:故障的起因仅仅是RAID失效,维护人员随后的抢救数据过程中用11块硬盘进行重分配RAID5,并进行长时间的初始化,这对原始数据是不可

EVA4400存储RAID信息丢失数据恢复过程

[服务器数据恢复故障分析]在数据恢复行业中经常会遇到因为意外断电导致raid模块硬件损坏或者riad管理信息丢失等raid模块损坏导致数据丢失的情况.正常情况下服务器的raid阵列一旦创建完成后就不再对管理模块中的信息进行更改,不过raid管理模块的信息其实是可修改信息,一次或多次的意外断电是可能造成这部分信息被篡改或丢失的,断电次数过多时甚至可能导致raid卡上的元器损坏.间接导致主机失去对多块物理硬盘进行RAID管理的中间层模块.该客户的服务器就属于这种情况. [服务器数据恢复故障描述]客户

HP EVA4400服务器RAID信息丢失数据恢复方法

[服务器数据恢复故障分析] 在数据恢复行业中经常会遇到因为意外断电导致raid模块硬件损坏或者riad管理信息丢失等raid模块损坏导致数据丢失的情况.正常情况下服务器的raid阵列一旦创建完成后就不再对管理模块中的信息进行更改,不过raid管理模块的信息其实是可修改信息,一次或多次的意外断电是可能造成这部分信息被篡改或丢失的,断电次数过多时甚至可能导致raid卡上的元器损坏.间接导致主机失去对多块物理硬盘进行RAID管理的中间层模块.今天这个服务器就属于这种情况. [服务器数据恢复故障描述]

IBM DS4800服务器RAID信息丢失数据恢复方法

[服务器数据恢复故障描述] 客户服务器属于IBM品牌DS 4800型号服务器,服务器底层共有5块硬盘组成raid5阵列,单块硬盘为3TB.SAS硬盘.Windows操作系统.服务器在工作中遭遇意外断电,管理员重启服务器时由于机房供电故障导致服务器再次断电.再次重启服务器后raid阵列提示"无法找到存储设备",尝试进入raid管理模块查看信息但每次进入raid管理模块时都会导致服务器死机,尝试很多次依然是死机状态,管理员只好联系数据恢复公司进行服务器数据恢复. [服务器数据恢复方案] 1

天之涯地之角,raid信息丢了怎么找;天也大地也大,数据恢复找我家

····本次要分享的是一台服务器raid磁盘阵列由于多次意外断电导致的raid信息丢失了的数据恢复过程.磁盘阵列的硬件配置在这里也就不多赘述了,阵列中存储的数据是文档文件,Windows 2003 server操作系统,主机没有配置ups.系统意外断电时并未引起管理员的特别注意,重启后也并未影响阵列的正常使用,但后续又出现了多次异常断电的情况,最终导致了重启阵列后raid报错,服务器无法找到存储设备.管理员尝试了很多次重启服务器但是问题并没有解决,raid管理模块在进入时候会导致操作系统死机,只

RAID信息存放位置!

今天偶然的机会,客户打电话说有一台DELL T110的服务器换了主板电池RAID信息没了进不去系统了,问我怎么处理,T110的RAID是主板集成的S100的RAID卡(算是软RAID,通过BIOS配置RAID,所有计算都是由主板CPU提供),我的第一想法是从新配置RAID,但是想到配置的过程需要初始化磁盘,意味着所有数据会丢失,方法不可行,导入RAID信息也不行,因为这个RAID卡比较低级不支持,这时候客户说我拿两块新盘放到机器上从新配置下RAID(级别不变),配置完成后再放回以前的硬盘看是否好

Redhat 6中syslog信息丢失

我们采用Linux的syslog来记录产品的debug log.调用其中的一个可执行文件,执行完命令之后,查看debug log的信息,居然从某一条log之后的log都丢失了.多次尝试后,发现每次都在某条固定的log之后的log都丢失了.这篇博文就让我们一起来探个究竟. 一. 问题发现 在发现真正问题之前我做了以下尝试: (1) 进程是否在固定log之后某种逻辑退出?或者在固定log打印之后的语句中会产生信号导致进程终止? 在程序末尾打印一个消息到屏幕,可以看到程序正常运行,并退出. (2) 是

Linux清除磁盘上的RAID信息

我的笔记本是DELL的Inspiron 14z,原装存储器是由32G的固态硬盘和512G的机器硬盘组成.后来我自己又给它加了一个256G的固态硬盘,装并装上了CentOS,打算把500G的机械硬盘当资料存储盘.但是奇怪的是尽管我用尽各种办法都没法成功挂载那块32G的固态硬盘和512G的机器硬盘,后来用磁盘工具查看磁盘信息的时候发现有两个莫名奇妙的RAID ARRAY的条目.然后就联想到了我的笔记本原来使用的是intel的快速存储技术,那么有可能是因为磁盘中还残留有Intel RSTe RAID信

Linux raid信息 查看

Linux下查看软.硬raid信息的方法. 软件raid:只能通过Linux系统本身来查看 cat /proc/mdstat 可以看到raid级别,状态等信息. 硬件raid: 最佳的办法是通过已安装的raid厂商的管理工具来查看,有cmdline,也有图形界面.如Adaptec公司的硬件卡就可以通过下面的命令进行查看: # /usr/dpt/raidutil -L all 可以看到非常详细的信息. 当然更多情况是没有安装相应的管理工具,只能依靠Linux本身的话一般我知道的是两种方式: # d