IBM ds4700存储硬盘离线数据恢复-北亚案例

服务器数据恢复背景

本次恢复数据的服务器为一台IBM DS4700 光纤存储,该公司管理员提供的信息如下:服务器型号为IBM DS4700 存储,挂载14块硬盘,存储oracle数据库,两块硬盘报黄灯错误,目前raid组崩溃/卷无法挂载/业务全部瘫痪,需要进行紧急数据恢复处理。

服务器数据恢复检测过程

服务器数据恢复工程师首先对服务器进行检查,通过IBM storage manager/frombyte.com连接存储查看服务器存储当前状态,存储报告逻辑卷状态失败。然后对物理磁盘状态进行查看,发现13号磁盘状态为“警告”,10号和11号磁盘状态为“失败”,继续使用IBM storage manager对当前存储的全部日志进行备份解析逻辑卷结构信息,以备后期数据恢复使用。
客户管理员在服务器数据恢复工程师的帮助下将服务器全部磁盘进行编号标记,按各自槽位登记并移除服务器移交硬盘数据恢复工程师进行物理检测。工程师通过PC盘镜像设备对全部硬盘进行简单检测,所有硬盘可以正常识别,13号盘SMART状态为“警告”,状态和在IBM storage manager中报告一致。

服务器全盘备份

服务器数据恢复工程师在windows环境下首先将设备可以识别的磁盘在磁盘管理器中标记为脱机状态,从而为原始磁盘提供了一个写保护功能,然后使用数据恢复软件软件对原始磁盘进行扇区级别镜像操作,将原始磁盘中的所有物理扇区镜像到windows系统下的逻辑磁盘并以文件形式保存。(在镜像过程中13号硬盘的镜像速度极其缓慢,初步判断该盘存在大量不稳定扇区及损坏,需要使用坏道硬盘镜像设备进行备份)使用专业坏道硬盘镜像设备对13号硬盘进行坏道镜像同时观察镜像的速度和稳定性,发现13号盘的坏道并不多,但是存在大量的读取响应时间长等不稳定扇区,于是调整该磁盘的拷贝策略,将遇到坏道跳过扇区数和响应等待时间等参数均作一些修改。继续对该磁盘进行镜像操作。同时观察剩余盘在windows环境下使用winhex镜像的情况。
经过镜像操作后,在windows平台下使用winhex镜像的磁盘已经全部镜像完成,查看winhex生成的日志,发现在IBM storage manager/frombyte.com和硬盘SMART状态中均没有报错的1号盘也存在坏道,10号和11号盘均存在大量不规律的坏道分布。使用数据恢复工具结合坏道列表情况进行分析,EXT3文件系统中的部分关键性源数据处于坏道区域已被破坏,目前的数据恢复方案只能使用13号硬盘的镜像文件进行同一条带的xor并且根据文件系统的上下关系进行手动修复损坏的文件系统(13号盘不稳定扇区极多,硬盘数据恢复工程师为尽可能拷贝有效扇区并保护磁头,在镜像时对拷贝策略进行了部分自动跳过坏扇区的调整,镜像文件也可能存在缺损)。

重组raid阵列

服务器数据恢复工程师在windows平台下借助数据恢复工具将所有镜像文件全部展开,通过我们对ext3文件系统的逆向以及日志文件的分析得出服务器中所有磁盘在存储中的盘序信息以及raid校验方向、raid块大小、raid校验方式等信息,通过数据恢复工具对原raid进行虚拟重组、解析EXT3文件系统,将oracle数据库中的dmp文件进行部分提取,尝试进行数据恢复。

恢复oracle数据库

在dmp恢复的过程中,oracle数据库出现报错,内容为“imp-0008”错误,数据库数据恢复工程师对数据库进行分析,导致数据库报错的原因为dmp文件有问题。服务器数据恢复工程师重新对raid结构进行分析重组,重新导出dmp文件和dbf原始库文件并测试,接着对恢复出来的dbf原始库文件进行校验检测,所有文件均能通过测试。
数据库工程师到达现场,和用户沟通后决定使用恢复出来的dbf原始库文件进行操作,以确保能把数据恢复到最佳状态。

数据库恢复过程

1.把数据库文件拷贝到原数据库服务器中,路径为/home/oracle/tmp/syntong.
在根目录下创建了一个oradata文件夹作为备份,并把备份的整个syntong文件夹拷贝到oradata目录下。然后更改oradata文件夹及其所有文件的属组和权限。
2.备份原数据库环境,包括ORACLE_HOME下product文件夹下的相关文件。配置监听,使用原机中的splplus连接到数据库。尝试启动数据库到nomount状态。进行基本状态查询后,了解到环境和参数文件没有问题。 尝试启动数据库到mount状态,进行状态查询没有问题。启动数据库到open状态。出现报错:
ORA-01122: database file 1 failed verification check/frombyte.com
ORA-01110: data file 1: ‘/oradata/syntong/system01.dbf‘
ORA-01207: file is more recent than control file - old control file
3.经过进一步的检测和分析,判断此故障为控制文件和数据文件信息不一致,这是一类因断电或突然关机等引起的常见故障。
4.对数据库文件进行逐个检测,检测到所有数据文件没有物理损毁。
5.在mount状态下,对控制文件进行备份,alter database backup controlfile to trace as ‘ /backup/controlfile‘;对备份的控制文件进行查看修改,取得其中的重建控制文件命令。把这些命令复制到一个新建脚本文件controlfile.sql中。
6.关闭数据库,删除/oradata/syntong/下的3个控制文件。 启动数据库到nomount状态,执行controlfile.sql 脚本。
SQL>startup nomount/frombyte.combr/>SQL>@controlfile.sql
7.重建控制文件完成后,直接启动数据库,报错,需要进一步处理。
SQL> alter database open;
alter database open/frombyte.com
*
ERROR at line 1:
ORA-01113: file 1 needs media recovery
ORA-01110: data file 1: ‘/free/oracle/oradata/orcl/system01.dbf‘
然后执行恢复命令:
recover database using backup controlfile until cancel;
Recovery of Online Redo Log: Thread 1 Group 1 Seq 22 Reading mem 0
Mem# 0 errs 0: /free/oracle/oradata/orcl/redo01.log

做介质恢复,直到返回报告,恢复完成。
8.尝试open数据库。
SQL> alter database open resetlogs;
9.数据库启动成功。把原来temp表空间的数据文件加入到对应的temp表空间中。
10.对数据库进行各种常规检查,没有任何错误。
11.进行emp备份。全库备份完成,没有报错。将应用程序连接到数据库,进行应用层面的数据验证。一切正常,本次数据恢复成功。

IBM ds4700存储硬盘离线数据恢复-北亚案例

原文地址:http://blog.51cto.com/sun510/2130641

时间: 2024-10-08 06:04:35

IBM ds4700存储硬盘离线数据恢复-北亚案例的相关文章

IBM DS4700存储更换控制器电池

存储控制器中都会使用电池来保证当发生意外断电时,cache中的数据可以写到硬盘上,而不会丢失.一般存储电池的寿命为3年. 今天为客户的 DS4700存储更换了电池,在这里记录一下更换步骤及注意事项 更换步骤: 使用SM软件登陆到DS4700的管理界面上,注意连接方式,DS4700 2个控制器的管理口都要连通,可以将2个控制器的管理口和笔记本都连接到1台傻瓜交换机上,能ping通默认的管理IP. 管理口 默认IP 控制器1管理口1 192.168.128.101 控制器1管理口2 192.168.

EMC FC AX-4存储两块硬盘离线数据恢复方法和数据恢复过程

服务器故障描述:山西某公司一台服务器的EMC FC AX-4存储RAID5磁盘阵列,阵列中共有12块硬盘组成raid5磁盘阵列其中有两块硬盘为热备盘,阵列中硬盘单盘容量为1TB,服务器中有两块硬盘离线,一块热备盘未启用.客户将服务器中所有磁盘带到数据恢复公司.通常情况下造成服务器硬盘离线的原因为磁盘物理故障或者硬盘坏道.但是由于EMC控制器有着十分严格的磁盘检查策略,容易将性能不稳定的硬盘判定为硬件故障提出raid组,所以导致服务器崩溃的原因也有可能是磁盘读写不稳定.服务器数据恢复解决过程:第一

IBM DS 5300存储硬盘故障数据恢复详解

亚数据恢复接到IBM DS 5300 存储数据恢复的案例: IBM DS5300全名(IBM System Storage DS5300)是IBM推出的中端存储系统,它有一个设计合理.功能强大的内部架构,大幅度提升了性能,但某些物理故障或其他操作都可能会对卷或存储造成破坏,因此对系列存储的数据恢复技术才有了用武之地.而发生这些故障之后只能找专业的数据恢复公司做数据挽救工作.作者最近就处理过一起IBM DS5300因磁盘故障导致存储不可用的案例,见下文. 故障描述: 某公安局的一台IBM DS53

V7000存储7块硬盘离线数据恢复成功率分析

存储设备清单/数据恢复故障:客户的存储设备为一台V7000存储机头加8台存储阵列柜,80块6T机械硬盘组成raid5磁盘阵列,分配为13个lun,Windows操作系统:NTFS文件系统.由于机房漏水导致存储设备进水,7块硬盘报警脱机(包括两块热备盘),两组Mdisk失效,pool无法启动,需要对阵列中全部数据进行数据恢复.故障情况如下图:客户的阵列柜中共创建了8组Mdisk,加到一个pool中,现客户主要数据pool无法加载,其中共十三个通用卷均无法挂载,具体情况如下图所示:数据恢复成功率预估

raid5两块硬盘离线数据恢复案例

Riad数据恢复故障概述 北京某公司的一台存储挂载了raid5磁盘阵列,正常使用中存储忽然崩溃,经管理员检查发现raid5阵列中有两块硬盘离线,阵列中共两块热备盘其中一块热备盘激活失败,raid5阵列瘫痪导致存储无法使用.需要进行基于raid5磁盘阵列的数据恢复操作. Raid5阵列数据恢复检测: 硬件工程师首先对raid中两块离线硬盘进行物理检测,硬盘无物理故障,无坏道.该存储上层共一个lun用于sun小机使用,ZFS文件系统. Raid5阵列数据恢复过程 1.备份数据按照数据恢复流程对所有磁

数据恢复过程之:服务器raid5两块硬盘离线数据恢复

服务器故障情况简介:客户的一台ibm x3850服务器上组了一个raid5磁盘阵列,有两块硬盘离线,服务器崩溃.北亚数据恢复中心工程师对服务器进行初检,客户的磁盘阵列由5块硬盘组成,linux redhat 5.3操作系统,存储一个oracle数据库.阵列中有两块硬盘处于离线状态,热备盘未激活.硬盘无物理故障,无明显同步表现.数据恢复方案:1.关闭服务器同时确保在恢复过程中不再开启服务器,将故障盘进行标记后取出槽位挂载至数据恢复公司的备份服务器环境进行镜像备份.完成后恢复原故障服务器.2.分析备

服务器数据恢复方法之存储raid硬盘离线数据恢复案例

[故障描述]某法院的一台HP-P4500的存储系统,底层是12块1TB的硬盘组的RAID.其中每6个1TB的盘一组,第一组的前面一部分组了一个RAID0+1,是存放HP-P4500嵌入式系统,接着组了一个RAID5存放数据,第二组组了一个RAID5.在存储系统上层一共分了两个卷,卷大小一个为3TB,一个为5TB.后来因磁盘故障导致存储不可用,客户先请HP的工程做更换磁盘,强制上线,但存储还是不可用.最后才联系我们做数据恢复. [硬件检测]我们的硬件工程师先对客户的12块硬盘做了硬件检测,发现客户

某公司HP-EVA4400存储硬盘离线的数据恢复方法和数据恢复过程

一.故障描述 整个EVA存储结构是由一台EVA4400控制器,三台EVA4400扩展柜和28块FC 300G硬盘构成的.由于两块磁盘掉线导致存储某些LUN不可用,某些LUN丢失.由于EVA4400是因为某些磁盘掉线,从而导致整个存储不可用.因此接收到磁盘以后北亚工程师先对所有磁盘做物理检测,检测完后发现没有物理故障.接着使用坏道检测工具检测磁盘坏道,发现也没有坏道.磁盘坏道检测日志如下: 图一: 二.备份数据 考虑到数据的安全性以及可还原性,在做数据恢复之前需要对所有源数据做备份,以防万一操作不

分享一例EVA 4400存储硬盘故障数据恢复方案和数据恢复过程

EVA系列存储是一款以虚拟化存储为实现目的的HP中高端存储设备,平时数据会不断的迁移,加上任务通常较为繁重,所以磁盘的负载相对是较重的,也是很容易出现故障的.EVA是依靠大量磁盘的冗余空间,以及故障后rss冗余磁盘动态迁移来实现整个存储的数据保护,但随着越来越多的磁盘掉线,这种保护会接近临界,直至崩溃.下面以EVA存储故障为例,讲解EVA 4400存储数据恢复. 一.故障描述 整个EVA存储结构是由一台EVA4400控制器.EVA扩展柜及若干FC磁盘组成.由于磁盘故障导致存储中LUN不可用,致使