FreeNAS+ESXi5数据恢复过程+虚拟化数据恢复方法

【背景简介】

故障发生在苏州的一家公司,此公司使用一种廉价的存储模式,用iSCSI方式来达到FC SAN的功能。物理存储构架在一台 DELL 服务器上,使用 FreeNAS 来做 iSCSI,然后使用两台 DELL 服务器做 ESXi5.0 的的虚拟化系统。
FreeNAS 层为UFS2文件系统,整个存储建一个稀疏模式的文件,挂给ESXi5.0 系统。ESXi系统内跑有5台虚拟机,其中有三台最为重要。一台windows2003系统虚拟机是此公司在当地的门户网站。使用 ASP.net和 PHP 混合构架,使用数据库为 SqlServer2005和 mysql 5.1 。一台为FreeBSD 系统,跑有 Mysql数据库,供其它多台虚拟机使用。一台为windows2003服务器,存储此公司新开发的程序代码。

【故障现象】

在一次存储突然断电之后,ESXi系统连不上存储,管理员在FreeNAS中发现UFS2文件系统出现问题,随后管理员用fsck 修复好了文件系统。 此时ESXi 系统可以连上存储,但发现ESXi系统未能识别到原来的数据存储和VMFS文件系统,管理员格式化VMFS后发现里面空无一物。

【数据恢复】

分析故障,最大化利用可用信息。开始抽丝剥茧:
应用构架层次:FreeNAS(UFS2文件系统–> 一个大的稀疏模式的文件) –> ESXi 5.0(VMFS文件系统层) -> 单台虚拟机的虚拟磁盘 (windows-NTFS文件系统/FreeBSD-UFS2文件系统)。
第一步是镜像 FreeNAS 层,然后分析整个存储,发现就一个900多GB的大文件,文件名: iscsidata。通过UFS2文件系统的二进制结构,定位到 iscsidata 文件的Inode数据,发现此文件被重建过,inode指针指向的数据量很少。FreeNAS层无法解决,就无法进入到下一步的 VMFS层分析。
收集UFS2文件系统的重要结构:
块大小:16KB
Segment 大小:2KB
柱面组大小:188176 KB
UFS2一个数据指针占 8字节,一个块可存储 2048个数据指针。那么一个二级指针块则可存储:2048204816KB= 64GB 数据。一个三级指针块则可存储 64GB*2048= 128TB 数据。如果能找到 iscsidata 文件的三级指针块就能解决 FreeNAS层问题。但iscsidata文件重建过,过程和大小都和原始的一样,估计有部分指针块已被覆盖。原始 iscsidata 文件的 inode和新建的 iscsidata 文件的 inode 就在一个位置,尝试进行搜索,无其它有用的inode出现。只得现场写程序收集有用的指针块:
图一:(图片来源于北亚数据恢复)

由于iscsidata文件是使用稀疏模式,收集条件只能放宽,收集到了大量三级指针块和二级指针块。对收集到的所有三级指针块进行分析,都是无效的,无iscsidata文件使用的三级指针块,估计在新建iscsidata文件时被新的覆盖(新的iscsidata文件在挂载到ESXi5.0后有个VMFS格式化过程,而 ESXi5.0 使用GPT分区,GPT分区会在磁盘最后写入冗余的GPT头和分区表信息数据,这样会使用iscsidata文件的三级指针块)。
现只能分析收集到的二级指针块,对有大量的二级指针块的指向数据进行DUMP,然后再从磁盘中的数据定位到二级指针。这样得到大量DUMP的数据。
开始分析 VMFS 层:
重格式化过VMFS,和原始UFS2的指针已丢失,造成VMFS元文件已基本上不可用,无重要的参考信息,所幸虚拟机都无快照,仍可恢复。通过单台虚拟机层(windows(NTFS)和 FreeBSD(UFS2)系统的文件系统结构),向上定位到VMFS层,在通过VMFS层定位到DUMP出的单个64GB 文件,通过多次组合,最终这三台重要的虚拟机的虚拟磁盘都已完全恢复。将恢复出的网页数据和数据库数据上传到一新构建的系统中,拉起应用,数据完全无问题。
图二:(图片来源于北亚数据恢复)

【恢复结果】

耗时3天,最终数据恢复成功。

原文地址:http://blog.51cto.com/sun510/2313416

时间: 2024-08-07 19:55:47

FreeNAS+ESXi5数据恢复过程+虚拟化数据恢复方法的相关文章

虚拟机数据丢失的数据恢复过程和数据恢复方法

中石化某省分公司的信息管理平台,几台VMware虚拟机--ESX SERVER共享一台IBM DS4100存储,大约有40~50组虚拟机,占用1.8TB空间,正常工作中,vc里报告虚拟磁盘丢失,ssh到ESX中执行fdisk -l查看磁盘,发现storage已经没有分区表了.重启所有设备后,ESX SERVER均无法连接到DS4100所在的STORAGE. 我们接到案例后仔细询问当时的管理员但是可用信息不多,但是他们无意间提到曾经在这个存储网络里连接过一台windows 2003服务器,具体情况

服务器raid5阵列故障排查及数据恢复过程记录

[服务器故障情况概述] 今天介绍的是服务器raid5阵列因为不明原因导致阵列崩溃后的故障排查方法,以及服务器数据恢复过程.下面简单介绍一下需要恢复数据的服务器硬件配置情况:本次数据恢复案例中的服务器型号为某品牌X3850型号,服务器上组建了一个raid5磁盘阵列,阵列里包含4块成员盘和1块热备盘一共5块.服务器再正常使用过成功突然崩溃,管理员查看raid阵列状态时发现阵列中有2块硬盘掉线,热备盘没有启用.需要从服务器层面进行数据恢复操作.·[服务器数据恢复普通流程]首先关闭服务器并保证在排查故障

Vsan分布式存储服务器数据恢复过程介绍

一.vsan分布式存储故障情况介绍 近期处理了一个vsan分布式存储的数据恢复案例,需要进行数据恢复的服务器是一套vsan超融合基础架构.由于客户的服务器供电异常导致异常关机,服务器管理员对服务器进行了重启,重启后发现vsan存储逻辑架构出现故障,虚拟磁盘文件丢失,虚拟机组件异常. 客户的vsan存储服务器里面一共搭配了16块硬盘,其中固态硬盘有8块,机械硬盘8块.固态硬盘主要作为缓存盘使用. 二.vsan分布式存储服务器数据恢复镜像备份 客户的服务器内存储了大量的重要数据,需要对存储进行数据恢

FreeNAS+ESXi5异常断电,ESXI系统无法连接存储

[存储服务器介绍] 发生故障的服务器存储为常见存储模式,物理存储为一台Dell服务器,虚拟化系统为esxi5.0.上层采用iSCSI方式实现FCSAN功能,上层的iSCSI是使用FreeNAS构建的.·服务器的FreeNAS层采用了UFS2文件系统,虚拟化系统里有3台虚拟机,本次服务器数据恢复的重点就是这三台虚拟机.其中一台虚拟机采用的是FreeBSD 系统,存储的是数据库文件,另外两台分别存储了网站数据和Windows2003服务器,存储的是数据库数据和工作程序代码.· [存储服务器故障发生过

苏州FreeNAS+ESXi5数据恢复案例

苏州FreeNAS+ESXi5数据恢复案例 [物理与逻辑存储] 此公司使用一种廉价的存储模式,用iSCSI方式来达到FC SAN的功能. 物理存储构架在一台 DELL 服务器上,使用 FreeNAS 来做 iSCSI,然后使用两台 DELL 服务器做ESXi5.0 的的虚拟化系统.FreeNAS 层为UFS2文件系统,整个存储建一个稀疏模式的文件,挂给ESXi5.0 系统.ESXi系统内跑有5台虚拟机,其中有三台最为重要. 一台windows2003系统虚拟机是此公司在当地的门户网站.使用 AS

某公司HP-EVA4400存储硬盘离线的数据恢复方法和数据恢复过程

一.故障描述 整个EVA存储结构是由一台EVA4400控制器,三台EVA4400扩展柜和28块FC 300G硬盘构成的.由于两块磁盘掉线导致存储某些LUN不可用,某些LUN丢失.由于EVA4400是因为某些磁盘掉线,从而导致整个存储不可用.因此接收到磁盘以后北亚工程师先对所有磁盘做物理检测,检测完后发现没有物理故障.接着使用坏道检测工具检测磁盘坏道,发现也没有坏道.磁盘坏道检测日志如下: 图一: 二.备份数据 考虑到数据的安全性以及可还原性,在做数据恢复之前需要对所有源数据做备份,以防万一操作不

分享 一个NetApp删除所有卷后的数据恢复过程

NetApp FAS3220是NetApp推出的中端存储阵列,针对NAS和SAN环境构建,被定制为虚拟化.私有云或传统.早先的用途,适用于从几TB到超过2PB的存储需求,提供数据保护,可扩展性,自动精简配置,精简克隆,备份和灾难恢复,下面就讲解NetApp FAS 3220存储的数据恢复的方法.·本次讲解的NetApp FAS 3220型号的存储,硬件环境是一共96块600G的SAS硬盘,硬盘和普通的硬盘还不一样,这个硬盘的扇区大小是520字节一个扇区,上层应用环境也很复杂,所有的lun都是映射

分享一例EVA 4400存储硬盘故障数据恢复方案和数据恢复过程

EVA系列存储是一款以虚拟化存储为实现目的的HP中高端存储设备,平时数据会不断的迁移,加上任务通常较为繁重,所以磁盘的负载相对是较重的,也是很容易出现故障的.EVA是依靠大量磁盘的冗余空间,以及故障后rss冗余磁盘动态迁移来实现整个存储的数据保护,但随着越来越多的磁盘掉线,这种保护会接近临界,直至崩溃.下面以EVA存储故障为例,讲解EVA 4400存储数据恢复. 一.故障描述 整个EVA存储结构是由一台EVA4400控制器.EVA扩展柜及若干FC磁盘组成.由于磁盘故障导致存储中LUN不可用,致使

Raid5磁盘阵列数据恢复,服务器raid数据恢复步骤和方法

[磁盘阵列数据恢复故障描述]客户的一台HP DL380 G4服务器,服务器使用hp smart array控制器挂载了一台国产磁盘阵列,磁盘阵列由14块146G SCSI硬盘组成一组RAID5.操作系统为LINUX,构建了NFS+FTP,作为公司内部文件服务器使用.由于服务器机房进行搬迁,搬迁过程中管理员顺便打扫了一下服务器和磁盘阵列设备,随后在新机房链接线路后服务器无法识别RAID,未做初始化. [对raid5阵列的初检结果]工程师对设备进行简单的初检,发现数据丢失的原因为raid信息丢失,H