某省云数据中心数据恢复报告

一、故障描述

机房突然断电导致整个存储瘫痪,加电后存储依然无法使用。经过用户方工程师诊断后认为是断电导致存储阵列损坏。整个存储是由12块日立硬盘(3T SAS硬盘)组成的RAID-6磁盘阵列,被分成一个卷,分配给几台Vmware的ESXI主机做共享存储。整个卷中存放了大量的Windows虚拟机,虚拟机基本都是模板创建的,因此系统盘都统一为160G。数据盘大小不确定,并且数据盘都是精简模式。

二、备份数据

将故障存储的所有磁盘和备份数据的目标磁盘连入到一台Windows Server 2008的服务器上。故障磁盘都设为脱机(只读)状态,在专业工具WinHex下看到连接状态如下图所示:(图中HD1-HD12为目标备份磁盘,HD13-HD24为源故障磁盘,型号为HUS723030ALS640):

使用WinHex 对HD13-HD24以底层方式读取扇区,发现了大量损坏扇区。初步判断可能是这种硬盘的读取机制与常见的硬盘不一样。尝试更换操作主机,更换HBA卡,更换扩展柜,更换为Linux操作系统,均呈现相同故障。与用户方工程师联系,对方回应此控制器对磁盘没有特殊要求。

使用专业工具对硬盘损坏扇区的分布规律进行检测,发现如下规则:

1、  损坏扇区分布以256个扇区为单位。

2、  除损坏扇区片断的起始位置不固定外,后面的损坏扇区都是以2816个扇区为间隔。

所有磁盘的损坏扇区分布如下表(只列出前3个损坏扇区):


ID号


硬盘序列号


第1个损坏扇区


第2个损坏扇区


第3个损坏扇区


13


YHJ7L3DD


5376


8192


11008


14


YHJ6YW9D


2304


5120


7936


15


YHJ7M77D


2048


4864


7680


16


YHJ4M5AD


1792


4608


7424


17


YHJ4MERD


1536


4352


7168


18


YHJ4MH9D


1280


6912


9728


19


YHJ7JYYD


1024


6656


9472


20


YHJ4MHMD


768


6400


9216


21


YHJ7M4YD


512


6144


8960


22


YHJ632UD


256


5888


8704


23


YHJ6LEUD


5632


8448


11264


24


YHHLDLRA


256


5888


8704

 临时写了个小程序,对每个磁盘的损坏扇区做绕过处理。用此程序镜像完所有盘的数据。

 

三、故障分析

1、分析损坏扇区

仔细分析损坏扇区发现,损坏扇区呈规律性出现。

1、  每段损坏扇区区域大小总为256。

2、  损坏扇区分布为固定区域,每跳过11个256扇区遇到一个坏的256扇区。

3、  损坏扇区的位置一直存在于RAID的P校验或Q校验区域。

4、  所有硬盘中只有10号盘中有一个自然坏道。

2、分析分区大小

对HD13、HD23、HD24的0-2扇区做分析,可知分区大小为52735352798扇区,此大小按RAID-6的模式计算,除以9,等于5859483644扇区,与物理硬盘大小1049524,和DS800控制器中保留的RAID信息区域大小吻合;同时根据物理硬盘底层表现,分区表大小为512字节,后面无8字节校验,大量的0扇区也无8字节校验。故可知,原存储并未启用520字节扇区。

分区大小如下图(GPT分区表项底层表现,涂色部分表示分区大小,单位512字节扇区,64bit):

四、重组RAID

1、分析RAID结构

存储使用的是标准的RAID-6阵列,接下来只需要分析出RAID 成员数量以及RAID的走向就可以重组RAID。

1、  分析RAID条带大小

整个存储被分成一个大的卷,分配给几台ESXI做共享存储,因此卷的文件系统肯定是VMFS文件系统。而VMFS卷中又有存放了大量的Windows 虚拟机。Windows虚拟机中大多使用的是NTFS文件系统,因此可以根据NTFS中的MFT的顺序分析出RAID条带的大小以及RAID的走向。

2、  分析RAID是否存在掉线盘

镜像完所有磁盘。后发现最后一块硬盘中并没有像其他硬盘一样有大量的坏道。其中有大量未损坏扇区,这些未损坏扇区大多是全0扇区。因此可以判断这块硬盘是热备盘。

2、重组RAID

根据分析出来的RAID结构重组RAID,能看到目录结构。但是不确定是否为最新状态,检测几个虚拟机发现有部分虚拟机正常,但也有很多虚拟机数据异常。初步判断RAID中存在掉线的磁盘,依次将RAID中的每一块磁盘踢掉,然后查看刚才数据异常的地方,未果。又仔细分析底层数据发现问题不是出在RAID层面,而是出在VMFS文件系统上。VMFS文件系统如果大于16TB的话会存在一些其他的记录信息,因此在组建RAID的时候需要跳过这些记录信息。再次重组RAID,查看以前数据异常的地方可以对上了。针对其中的一台虚拟机做验证,将所有磁盘加入RIAD中后,这台虚拟机是可以启动的,但缺盘的情况下启动有问题。因此判断整个RAID处在不缺盘的状态为最佳。

五、验证数据

1、验证虚拟机

针对用户较为重要的虚拟机做验证,发现虚拟机大多都可以开机,可以进入登陆界面。有部分虚拟机开机蓝屏或开机检测磁盘,但是光盘修复之后都可以启动。

部分虚拟机现象开机如下:

2、验证数据库

针对重要的虚拟机中的数据库做验证,发现数据库都正常。其中有一个数据库,据用户描述是缺少部分数据,但是经过仔细核对后发现这些数据在数据库中本来就不存在。通过查询 master 数据库中的系统视图,查出原来的所有数据库信息如下:

3、检测整个VMFS卷是否完整

由于虚拟机的数量很多,每台都验证的话,所需的时间会很长,因此我们对整个VMFS卷做检测。在检测VMFS卷的过程中发现有部分虚拟机或虚拟机的文件被破坏。列表如下:’

六、恢复数据

1、生成数据

北亚工程师跟客户沟通并且描述了目前恢复的情况。用户经过对几台重要的虚拟机验证后,用户反应恢复的数据可以接受,接着北亚工程师立即着手准备恢复所有数据。

先准备目标磁盘,使用一台dell 的MD 1200加上11块3T的硬盘组成一个RAID阵列。接着将重组的RAID数据镜像到目标阵列上。然后利用专业的工具UFS解析整个VMFS文件系统。

2、尝试挂载恢复的VMFS卷

将恢复好的VMFS卷连接到我们的虚拟化环境中的一台ESXI5.5主机上,尝试将其挂载到的ESXI5.5的环境中。但是由于版本(客户的ESXI主机是5.0版本)原因或VMFS本身有损坏,导致其挂载不成功。继续尝试使用ESXI的命令挂载也不成功,于是放弃挂载VMFS卷。

七、移交数据

由于时间紧迫,先安排北亚工程师将MD 1200 阵列上的数据带到用户现场。然后使用专业工具”UFS”依次导出VMFS卷中的虚拟机。

1、  将MD 1200阵列上的数据通过HBA卡连接到用户的VCenter服务器上。

2、  在VCenter服务器安装“UFS”工具,然后使用“UFS”工具解释VMFS卷。

3、  使用“UFS”工具将VMFS卷中的虚拟机导入到VCenter服务器上。

4、  使用VCenter的上传功能将虚拟机上传到ESXI的存储中。

5、  接着将上传完的虚拟机添加到清单,开机验证即可。

6、  如果有虚拟机开机有问题,则尝试使用命令行模式修复。或者重建虚拟机并将恢复的虚拟机磁盘(既VMDK文件)拷贝过去。

7、  由于部分虚拟机的数据盘很大,而数据很少。像这种情况就可以直接导出数据,然后新建一个虚拟磁盘,最后将导出的数据拷贝至新建的虚拟磁盘中即可。

统计了一下整个存储中虚拟机的数量,大约有200台虚拟机。目前的情况只能通过上述方式将恢复的虚拟机一台一台的恢复到用户的ESXI中。由于是通过网络传输,因此整个迁移的过程中网络是一个瓶颈。经过不断的调试以及更换主机最终还是无法达到一个理想的状态,由于时间紧张,最终还是决定在当前的环境迁移数据。

八、数据恢复总结

1、故障总结

所有磁盘坏道的规律如下表:


ID号


硬盘序列号


损坏扇区域(256SEC)分布规则


位置


备注


13


YHJ7L3DD


5376+N*2816


14


YHJ6YW9D


2304+N*2816


15


YHJ7M77D


2048+N*2816


16


YHJ4M5AD


1792+N*2816


17


YHJ4MERD


1536+N*2816


18


YHJ4MH9D


1280+N*2816


19


YHJ7JYYD


1024+N*2816


20


YHJ4MHMD


768+N*2816


21


YHJ7M4YD


512+N*2816


22


YHJ632UD


256+N*2816


23


YHJ6LEUD


5632+N*2816


98724块区有一自然损坏扇区


24


YHHLDLRA


256+N*2816

经过仔细分析后得出坏道的结论如下:

1、  除去SN:YHJ6LEUD上的一个自然坏道外,其余坏道均分布于RAID-6的Q校验块中。

2、  坏道区域多数表现为完整的256个扇区,正好当时创建RAID-6时的一个完整RAID块大小。

3、  活动区域表现为坏道,非活动区域坏道有可能不出现,如热备盘,上线不足10%,坏道数量就比其他在线盘少(热备盘的镜像4小时完成,其他有坏道盘大概花费40小时)

4、  其他非Q校验区域完好,无任何故障。

结论:

通常情况,经如上坏道规则表现可推断,坏道为控制器生成Q校验,向硬盘下达IO指令时,可能表现为非标指令,硬盘内部处理异常,导致出现规律性坏道。

2、数据恢复总结

数据恢复过程中由于坏道数量太多,以致备份数据时花费了很长世间。整个存储是由坏道引起的,导致最终恢复的数据有部分破坏,但不影响整体数据,最终的结果也在可接受范围内。

整个恢复过程,用户方要求紧急,我方也安排工程师加班加点,最终在最短的时间内将数据恢复出来。后续的数据迁移过程中由我方工程师和用户方工程师配合完成。

九、项目成员


姓名


职务


电话


Email


商务代表


张晓娜


13161737074


[email protected]


张宇


项目主管


18600440055


[email protected]


邓奇


存储恢复工程师


[email protected]


秦颖吉


虚拟化工程师


[email protected]


张勇


数据库工程师


[email protected]


刘思棋


硬盘工程师


[email protected]


陈琳娜


项目记录


[email protected]

北京北亚时代科技股份有限公司

2014年11月26日

时间: 2024-08-01 10:46:23

某省云数据中心数据恢复报告的相关文章

SDN与NFV技术在云数据中心的规模应用探讨

Neo 2016-1-29 | 发表评论 编者按:以云数据中心为切入点,首先对SDN领域中的叠加网络.SDN控制器.VxLAN 3种重要技术特点进行了研究,接下来对NFV领域中的通用服务器性能.服务链两类关键问题展开具体分析.最后,阐述了前期开展的SDN/NFV技术试验工 作进展及相关结论,并对VDC应用产品进行了展望. 1 引言 伴随着云计算技术的兴起,数据趋于大集中,传统电信系统网络架构成为阻碍云数据中心发展的巨大桎梏.为满足数据中心在云计算环境下的虚拟网络资源调度和共享需求,未来的数据中心

据说微软在爱荷华州启动了$ 1.1B的云数据中心

微软正在扩大在爱荷华州的数据中心运营.大型软件和云服务提供商已被确定为在西得梅因一块 154 英亩土地上的大型" Alluvion 项目"背后的公司.<strong>根据<四城市时报>的一份报告,该数据中心的成本预计将接近 11.3 亿美元.它将加入该地区先前宣布的" Project Mountain" ,这是微软耗资 7 亿美元的云数据中心,该中心于去年开绿灯.</strong> 该报告指出,微软在该地区的投资接近 20 亿美元

如何建设云数据中心

关于数据中心,维基百科给出的定义是"数据中心是一整套复杂的设施.它不仅仅包括计算机系统和其它与之配套的设备(例如通信和存储系统),还包含冗余的数据通信连接.环境控制设备.监控设备以及各种安全装置".谷歌将数据中心解释为"多功能的建筑物,能容纳多个服务器以及通信设备.这些设备被放置在一起是因为它们具有相同的对环境的要求以及物理安全上的需求,并且这样放置便于维护",而"并不仅仅是一些服务器的集合." 当下,整个IT信息产业正朝着宽带化.移动化.智能化

云宏大讲坛 | SDN、NV在云数据中心的应用场景

随着云计算技术的高速发展,IT基础架构也处于快速变化中,以适应新技术层出不穷的要求.以云数据中心网络设备而言,IT基础架构的变化对网络运维带来了一些新挑战: 应用架构的转变 业务的转型导致基于服务和Web的应用大量增加.这种转变导致云数据中心中存在大量的服务器到服务器的东西向通信流量,同时,这些服务器间的通信也要求有安全隔离. 多数据中心的需求 从可用性和灵活性考虑,越来越多的用户考虑将业务部署到多个数据中心.用户希望在数据中心间方便互联互通,从而实现应用的容灾或多活部署. 虚拟化技术应用广泛

SDN、NV在云数据中心的应用场景

随着云计算技术的高速发展,IT基础架构也处于快速变化中,以适应新技术层出不穷的要求.以云数据中心网络设备而言,IT基础架构的变化对网络运维带来了一些新挑战: 应用架构的转变 业务的转型导致基于服务和Web的应用大量增加.这种转变导致云数据中心中存在大量的服务器到服务器的东西向通信流量,同时,这些服务器间的通信也要求有安全隔离. 多数据中心的需求 从可用性和灵活性考虑,越来越多的用户考虑将业务部署到多个数据中心.用户希望在数据中心间方便互联互通,从而实现应用的容灾或多活部署. 虚拟化技术应用广泛

世纪互联与华为联手打造云数据中心是一步好旗!

9月4日,华为发布高端智能手机Mate7(2999元人民币),其中的处理器(CPU)是华为自产的海思麒麟(Kirrin)925,此举让高调国产操作系统者颜面丢尽,国家队无言以对. 去年12月19日,世纪互联与华为签订战略合作协议,双方将共同打造世纪互联领先的电信中立第三方数据中心,全面提升世纪互联数据中心的建设速度,以响应与日俱增的市场需求.此举标志着双方将充分发挥各自优势,开展全方位立体合作,重点在数据中心.服务器等方面,共同致力于提供可靠稳定.高效节省.匹配演进的网络能源解决方案,成为国内能

云数据中心

美国政府CIA采购 传统的老牌it厂商不敌新兴互联网厂商亚马逊AWS 出价高的亚马逊反而赢了 业务场景: 全球情报数据的搜集.分析和共享,业务量超出一般的企业. 情报社区云的评分维度: 技术展现方面:当业务出现高峰时,系统能否快速的水平扩展 技术解决方案方面: 技术保障水平方面: 新兴的数据中心 传统的数据中心

某云数据中心网络解决方案(分享二十一)

1. 整体网络方案 全球IDC数据中心的网络结构符合层次化和模块化的设计原则,分为核心层.汇聚层和接入层,其网络拓扑图如下图所示: IDC机房网络拓扑图 方案说明: 支持接入中国移动.中国电信.中国联通三家运营商的互联网出口,出口网关通过光纤链路连接三大运营商城域网,为客户提供独享带宽支持.并提供多运营商出口解决方案: 能提供的总出口带宽为420G(电信160G.联通160G.移动100G),并具备物理双路由备份:(备注:前期机房提供部分出口带宽,后期根据实际需求进行扩容) 核心设备和线路全部冗

小鸟云华东数据中心的特点

云计算也离不开数据中心,有了数据中心的基础支持云计算服务才能更加顺畅的开展.一个优秀的云计算数据中心能够让云服务商提供的云服务中心更加完美,那么,什么是优秀的云数据中心呢?小鸟云近期即将开放的华东数据中心能给你答案.优秀的数据中心离不开这几大优点:高度虚拟化.自动化.模块化.节能化.而小鸟云华东数据中心也不例外.1. 高度虚拟化小鸟云华东数据中心通过虚拟化技术将物理资源抽象整合,动态进行资源分配和调度,服务器.存储器.网络等虚拟化,从而在更大程度上减轻了数据中心的计算和安全挑战:2. 自动化小鸟