EMC存储Raid故障数据分析报告

一、故障描述
用户的EMC FC AX-4存储出现崩溃现象,整个存储空间由12块1TB STAT的硬盘组成的,其中10块硬盘组成一个RAID5的阵列,其余两块做成热备盘使用。由于RAID5阵列中出现2块硬盘损坏,而此时只有一块热备盘成功激活,因此导致RAID5阵列瘫痪,上层LUN无法正常使用。

二、检测磁盘
由于存储是因为某些磁盘掉线,从而导致整个存储不可用。因此接收到磁盘以后先对所有磁盘做物理检测,检测完后发现没有物理故障。接着使用坏道检测工具检测磁盘坏道,发现也没有坏道。
三、备份数据
考虑到数据的安全性以及可还原性,在做数据恢复之前需要对所有源数据做备份,以防万一其他原因导致数据无法再次恢复。使用winhex将所有磁盘都镜像成文件,由于源磁盘的扇区大小为520字节,因此还需要使用特殊工具将所有备份的数据再做520 to 512字节的转换。
四、故障分析及恢复过程
1、分析故障原因

由于前两个步骤并没有检测到磁盘有物理故障或者是坏道,由此推断可能是由于某些磁盘读写不稳定导致故障发生。因为EMC控制器检查磁盘的策略很严格,一旦某些磁盘性能不稳定,EMC控制器就认为是坏盘,就将认为是坏盘的磁盘踢出RAID组。而一旦RAID组中掉线的盘到达到RAID级别允许掉盘的极限,那么这个RAID组将变的不可用,上层基于RAID组的LUN也将变的不可用。目前初步了解的情况为基于RAID组的LUN只有一个,分配给SUN小机使用,上层文件系统为ZFS。
2、分析RAID组结构
EMC存储的LUN都是基于RAID组的,因此需要先分析底层RAID组的信息,然后根据分析的信息重构原始的RAID组。分析每一块数据盘,发现8号盘和11号盘完全没有数据,从管理界面上可以看到8号盘和11号盘都属于Hot Spare,但8号盘的Hot Spare替换了5号盘的坏盘。因此可以判断虽然8号盘的Hot Spare虽然成功激活,但由于RAID级别为RAID5,此时RAID组中还缺失一块硬盘,所以导致数据没有同步到8号硬盘中。继续分析其他10块硬盘,分析数据在硬盘中分布的规律,RAID条带的大小,以及每块磁盘的顺序。
3、分析RAID组掉线盘
根据上述分析的RAID信息,尝试通过北亚自主开发的RAID虚拟程序将原始的RAID组虚拟出来。但由于整个RAID组中一共掉线两块盘,因此需要分析这两块硬盘掉线的顺序。仔细分析每一块硬盘中的数据,发现有一块硬盘在同一个条带上的数据和其他硬盘明显不一样,因此初步判断此硬盘可能是最先掉线的,通过北亚自主开发的RAID校验程序对这个条带做校验,发现除掉刚才分析的那块硬盘得出的数据是最好的,因此可以明确最先掉线的硬盘了。
4、分析RAID组中的LUN信息
由于LUN是基于RAID组的,因此需要根据上述分析的信息将RAID组重组出来。然后分析LUN在RAID组中的分配信息,以及LUN分配的数据块MAP。由于底层只有一个LUN,因此只需要分析一份LUN信息就OK了。然后根据这些信息使用北亚raid恢复(datahf.net)程序,解释LUN的数据MAP并导出LUN的所有数据。
五、解释ZFS文件系统并修复
1、解释ZFS文件系统

利用北亚数据恢复(datahf.net)自主开发的ZFS文件系统解释程序对生成的LUN做文件系统解释,发现程序在解释某些文件系统元文件的时候报错。迅速安排开发工程师对程序做debug调试,分析程序报错原因。接着安排文件系统工程师分析ZFS文件系统是否因为版本原因,导致程序不支持。经过长达7小时的分析与调试,发现ZFS文件系统因存储突然瘫痪导致其中某些元文件损坏,从而导致解释ZFS文件系统的程序无法正常解释。
2、修复ZFS文件系统
上述分析明确了ZFS文件系统因存储瘫痪导致部分文件系统元文件损坏,因此需要对这些损坏的文件系统元文件做修复,才能正常解析ZFS文件系统。分析损坏的元文件发现,因当初ZFS文件正在进行IO操作的同时存储瘫痪,导致部分文件系统元文件没有更新以及损坏。人工对这些损坏的元文件进行手工修复,保证ZFS文件系统能够正常解析。
六、导出所有数据
利用程序对修复好的ZFS文件系统做解析,解析所有文件节点及目录结构。部分文件目录截图如下:

七、验证最新数据
由于数据都是文本类型及DCM图片,需要搭建太多的环境。由用户方工程师指点某些数据进行验证,验证结果都没有问题,数据均完整。部分文件验证如下:


八、数据恢复结论
由于故障发生后保存现场环境良好,没用做相关危险的操作,对后期的数据恢复有很大的帮助。整个数据恢复过程中虽然遇到好多技术瓶颈,但也都一一解决。最终在预期的时间内完成数据恢复,经用户验收数据无误,至此数据恢复工作结束。

原文地址:https://blog.51cto.com/sun510/2401250

时间: 2024-08-29 21:36:19

EMC存储Raid故障数据分析报告的相关文章

EMC存储raid阵列分区丢失的恢复过程

一.磁盘阵列分区丢失的过程介绍 事情的起因是由于机房的管理员按照规定对机房进行定期维护,结果由于操作失误导致一台某品牌的服务器设备(raid5磁盘阵列)中的分区丢失,丢失的分区中存储了该公司所有生产业务数据,业务因此瘫痪.经数据恢复工程师检测后发现由于该服务器文件系统头部的超级块及部分节点.目录项丢失,根据超级块备份及文件系统中的目录树结构,对超级块进行修复还原,对丢失的节点.目录项进行修补.重构之后,文件系统可以完整恢复.· 二.raid5磁盘阵列数据恢复过程 1.数据恢复工程师接到客户服务器

这种方式解决EMC存储崩溃RAID离线问题,简单又高效

故障描述:由于RAID5阵列中出现2块硬盘损坏,而此时只有一块热备盘成功激活,因此导致RAID5阵列瘫痪,上层LUN无法正常使用,整个存储空间由12块1TB SATA的硬盘组成的,其中10块硬盘组成一个RAID5的阵列,其余两块做成热备盘使用.由于前两个步骤并没有检测到磁盘有物理故障或者是坏道,由此推断可能是由于某些磁盘读写不稳定导致故障发生.因为EMC控制器检查磁盘的策略很严格,一旦某些磁盘性能不稳定,EMC控制器就认为是坏盘,就将认为是坏盘的磁盘踢出RAID组.而一旦RAID组中掉线的盘到达

如何删除 EMC存储认到的鬼盘LUNZ disk,在存储上出现initiators storage group "~management"的情况

如何删除 EMC存储认到的鬼盘LUNZ disk # lspvhdisk0          00c3d2b5101a064c                    rootvg          activehdisk1          00c3d2b5dee3325a                    rootvg          activehdisk2          none                                Nonehdisk3         

数据分析报告格式zz

分析报告的输出是是你整个分析过程的成果,是评定一个产品.一个运营事件的定性结论,很可能是产品决策的参考依据,既然这么重要那当然要写好它了. 我认为一份好的分析报告,有以下一些要点: 首先,要有一个好的框架,跟盖房子一样,好的分析肯定是有基础有层次,有基础坚实,并且层次明了才能让阅读者一目了然,架构清晰.主次分明才能让别人容易读懂,这样才让人有读下去的欲望: 第二,每个分析都有结论,而且结论一定要明确,如果没有明确的结论那分析就不叫分析了,也失去了他本身的意义,因为你本来就是要去寻找或者印证一个结

价值百万的企业大数据分析报告是如何炼成的?

很多企业往往会花高额价钱来请咨询公司对企业的整体经营情况做一个分析,生成一个报告.但是对于多数已经有数据管理的企业,可以针对一个具体企业.一个具体问题开展针对性的数据分析,从点到面地解决问题.现如今企业有了更多的数据来源途径和获取数据手段,一份有效的企业数据分析报告显然能够对企业产生很大的价值. 企业数据分析报告不仅能够对整体市场环境和宏观经济走向做判断,还可以深入到生产经营的每个环节.服务消费的每个客户去了解真实情况.例如营销数据分析可通过制定精细化广告投放策略来缩减成本提高销售转化.而最终,

如何写一份好的数据分析报告

先说说写一份好的数据分析报告的重要性,很简单,因为分析报告的输出是你整个分析过程的成果,是评定一个产品.一个运营事件的定性结论,很可能是产品决策的参考依据,既然这么重要那当然要写好它了. 我认为一份好的分析报告,有以下一些要点: 首先,要有一个好的框架,跟盖房子一样,好的分析肯定是有基础有层次,有基础坚实,并且层次明了才能让阅读者一目了然,架构清晰.主次分明才能让别人容易读懂,这样才让人有读下去的欲望: 第二,每个分析都有结论,而且结论一定要明确,如果没有明确的结论那分析就不叫分析了,也失去了他

如何上传PVS中ARDBP32.BIN到EMC存储上

EMC存储上也有TFTP功能,用户不想使用服务器上TFTP,使用存储更可靠,但项目,想正常把文件上传到EMC的目录上,研究N久,如下办法: 通过tptp命令方式: 上传 tftp -i ip(存储) put e:\tftp\get\ARDBP32.BIN 下载查看文件是否损坏 tftp -i ip(存储) get ARDBP32.BIN e:\tftp\get\ARDBP32.BIN 注意刚开始没有区分大小写,结果VDI一直无法拿到ARDBP32.BIN 最后记得在DHCP中,配置66 67 o

如何写一份合格的数据分析报告

开会拖延了时间~~~ 好了,能一直坚持每天跟读的童鞋们,相信对分析工具都有了一定程度的了解.缺的就是实战. 分析工具无非就是那几种,就像菜刀,有人用来切菜都困难,有人用来雕花都得心应手. 这是需要时间积累的过程.不是一蹴而就. 当然,分析的目的是为了解决问题. 不管是管理者还是员工,解决问题都需要以“分析报告”的方式呈现.把过程展示出来,把结果最终呈现给大家,只有大家认同的原因,才会得到顺利的执行. ———————— 分析报告要说明的部分有: ·分析对象的现状水平 ·分析对象存在的问题及原因 ·

数据分析报告的框架——既要懂分析,也要会讲故事

数据分析项目到收尾关头,总要出一份数据报告. 按照项目类型,可能是产品投放市场的效果评估:日常报表数据汇总:活动数据分析.而报告也分多种情况,有的需要给项目组一个交代,有的需要和业务组一同评估分析,有的则是邮件抄送领导向上级汇报. 数据报告无论是文本.PPT还是数据图表,都得展示分析的核心思路和结果,本质都是相同的. 1.好的分析师要会讲故事 一个数据报告的核心不是面面俱到的内容,而是让读者读懂"问题--假设--原因--验证过程--结论--背后现象--可推行的决策"这样一个脉络的故事.