一、磁盘阵列出现故障的过程
本次进行数据恢复的是某个网站的一个2850型号服务器,这台服务器一共安装有6块硬盘,每块硬盘的容量为300GB,服务器上层安装了linux操作系统和EXT3文件系统。在服务器运行过程中有一块硬盘因为未知原因离线,但是由于服务器的阵列级别为raid5,所以一块硬盘掉线并未影响服务器的正常运行,直到又出现一块硬盘掉线,服务器系统瘫痪。
·
二、强制上线操作
管理员查看阵列情况后并不能确定两块硬盘的离线顺序,只好选择其中一块硬盘尝试强制上线操作(强制上线操作具有一定风险,如进行操作需提前备份)。管理员将其中的一块硬盘强制上线后发现操作系统在启动时出现异常,为了避免损坏数据,只好将服务器关机并联系数据恢复机构进行专业修复。
·
三、数据恢复故障分析
在数据恢复操作中经常会遇到这类故障情况,很多管理员由于发现不及时或者第一块硬盘掉线时没有及时处理导致两块硬盘甚至多块硬盘掉线,这样阵列就会彻底崩溃。此时管理员可以对后离线的硬盘进行强制上线操作,虽然具有一定的风险但是也具有一定的可操作性行。
但是在进行强制上线时最好由经验丰富的管理员或者数据恢复工程师进行操作,以免对数据造成不可挽回的破坏,今天这个案例就是如此。
·
四、数据恢复过程
首先将服务器内的所有硬盘进行镜像备份,在备份过程中发现除了已经掉线的两块硬盘外,其他正常硬盘内也有存在坏道,但并没有离线所以暂不必进行特殊处理。备份后分析原raid阵列的组成结构,构建虚拟raid环境。由于管理员曾经对阵列进行强制上线操作,破坏了部分数据结构,所以需要恢复人员在验证raid结构后手工修复被破坏的那部分结构,然后导出阵列内的所有数据。这样数据就恢复成功了,只需重新搭建阵列并迁移就可以了。
·
五、数据恢复结论
本次数据恢复一共用时2个工作日,所有数据恢复成功。
原文地址:https://blog.51cto.com/sun510/2404649