RAID重组和数据库数据的修复与验证

背景介绍:

IBM DS5020 光纤存储。存储上一共16块FC硬盘,单盘容量600G。存储前面板10号和13号硬盘亮***故障灯,存储映射到redhat上的卷挂载不上,业务崩溃。

开始工作:

 通过IBM storage manager连接到存储查看当前存储状态,存储报告逻辑卷状态失败,再查看物理磁盘状态,发现6号盘报告“警告”,10号和13号盘报告“失败”,通过IBM storage manager将当前存储的完整日志状态备份下来,解析备份出来的存储日志获得了关于逻辑卷结构的部分信息。

  将16块FC盘粘贴标签,按照原始槽位号登记后从存储中移除,使用北亚数据恢复的FC盘镜像设备“DELL R510+SUN3510”对16块FC盘进行粗略测试,结果发现16块盘均能正常识别,分别检测16块盘的SMART状态,结果6号盘的SMART状态为“警告”状态和在IBM storage manager中报告一致。

  在windows环境下首先将设备识别出来的FC盘在磁盘管理器中标记为脱机状态,从而为原始磁盘提供了一个写保护功能,然后使用winhex软件对原始磁盘进行扇区级别镜像操作,将原始磁盘中的所有物理扇区镜像到windows系统下的逻辑磁盘并以文件形式保存。在镜像过程中发现6号磁盘的镜像速度很慢,结合先前对硬盘SMART状态检测时发现的问题综合判断,6号盘应该存在大量损坏以及不稳定扇区,导致在windows下的一般应用软件无法对其进行操作。

  使用专业坏道硬盘镜像设备对6号硬盘进行坏道镜像操作,在镜像过程中同时观察镜像的速度和稳定性,发现6号盘的坏道并不多,但是存在大量的读取响应时间长等不稳定扇区,于是调整6号盘的拷贝策略,将遇到坏道跳过扇区数和响应等待时间等参数均作一些修改。继续对6号盘进行镜像操作。同时观察剩余盘在windows环境下使用winhex镜像的情况。

  经过镜像操作后,在windows平台下使用winhex镜像的磁盘已经全部镜像完成,查看winhex生成的日志,发现在IBM storage manager和硬盘SMART状态中均没有报错的1号盘也存在坏道,10号和13号盘均存在大量不规律的坏道分布,根据坏道列表使用winhex定位到目标镜像文件分析发现,ext3文件系统的一些关键源数据信息有的已经被坏道所破坏,只能等待6号盘镜像完毕后,通过同一条带进行xor以及根据文件系统上下文关系的方式手动修复被损坏的文件系统。

  坏道镜像设备报告6号盘镜像完成,但是先前为了最大限度做出有效扇区以及为了保护磁头设置的拷贝策略会自动跳过一些不稳定扇区,所以现在的镜像是不完整的,于是调整拷贝策略,继续镜像被跳过的扇区,6号盘所有扇区全部镜像完毕。

  得到了所有硬盘的物理扇区镜像,在windows平台下使用winhex将所有镜像文件全部展开,根据我们对ext3文件系统的逆向以及日志文件的分析,得到了16块FC盘在存储中的盘序,RAID的块大小,RAID的校验走向和方式等信息,于是尝试通过软件的方式虚拟重组RAID,RAID搭建完成后进一步解析ext3文件系统,通过和用户沟通提取出了一些oracle的dmp文件,用户尝试进行恢复。

  在dmp恢复的过程中,oracle报告为imp-0008错误,联系北亚的oracle工程师,通过仔细分析导入dmp文件的日志文件,发现恢复的dmp文件存在问题而导致dmp导入数据失败。立刻重新分析raid结构,以及进一步确定ext3文件系统被破坏的程度,又经过数小时的工作,重新恢复dmp文件和dbf原始库文件,将恢复出来的dmp文件移交给用户进行数据导入测试,结果测试顺利没有发现问题,说明这次的数据恢复是成功的,接着对恢复出来的dbf原始库文件进行校验检测,所有文件均能通过测试。

  北亚的数据库工程师到达现场,和用户沟通后决定使用恢复出来的dbf原始库文件进行操作,以确保能把数据恢复到最佳状态。

  数据库恢复流程

  1. 拷贝数据库文件到原数据库服务器,路径为/home/oracle/tmp/syntong.

  作为备份。在根目录下创建了一个oradata文件夹,并把备份的整个syntong文件夹拷贝到oradata目录下。然后更改oradata文件夹及其所有文件的属组和权限。

  2. 备份原数据库环境,包括ORACLE_HOME下product文件夹下的相关文件。配置监听,使用原机中的splplus连接到数据库。尝试启动数据库到nomount状态。进行基本状态查询后,了解到环境和参数文件没有问题。尝试启动数据库到mount状态,进行状态查询没有问题。启动数据库到open状态。出现报错:

  ORA-01122: databasefile 1 failed verification check

  ORA-01110: data file1: ‘/oradata/syntong/system01.dbf‘

  ORA-01207: file ismore recent than control file - old control file

  3. 经过进一步的检测和分析,判断此故障为控制文件和数据文件信息不一致,这是一类因断电或突然关机等引起的常见故障。

  4. 对数据库文件进行逐个检测,检测到所有数据文件没有物理损毁。

  5.  在mount状态下,对控制文件进行备份,alter database backupcontrolfile to trace as ‘ /backup/controlfile‘;对备份的控制文件进行查看修改,取得其中的重建控制文件命令。把这些命令复制到一个新建脚本文件controlfile.sql中。

  6.  关闭数据库,删除/oradata/syntong/下的3个控制文件。 启动数据库到nomount状态,执行controlfile.sql 脚本。

  SQL>startupnomount

  SQL>@controlfile.sql

  7. 重建控制文件完成后,直接启动数据库,报错,需要进一步处理。

  SQL> alterdatabase open;

  alter database open

  *

  ERROR at line 1:

  ORA-01113: file 1needs media recovery

  ORA-01110: data file1: ‘/free/oracle/oradata/orcl/system01.dbf‘

  然后执行恢复命令

  recover databaseusing backup controlfile until cancel;

  Recovery of OnlineRedo Log: Thread 1 Group 1 Seq 22 Reading mem 0

  Mem# 0 errs 0:/free/oracle/oradata/orcl/redo01.log

  …

  做介质恢复,直到返回报告,恢复完成。

  8. 尝试open数据库。

  SQL> alterdatabase open resetlogs;

  9.  数据库启动成功。把原来temp表空间的数据文件加入到对应的temp表空间中。

  10. 对数据库进行各种常规检查,没有任何错误。

  11. 进行emp备份。全库备份完成,没有报错。将应用程序连接到数据库,进行应用层面的数据验证。

  数据验证结束,数据库修复完成,数据恢复成功。

时间: 2024-10-13 16:42:21

RAID重组和数据库数据的修复与验证的相关文章

读取数据库数据填充到缓存的问题,及修复方案一则

业务简述: 为了提高站点性能,部署了一台Redis,把资源从SqlServer数据库中同步到Redis,站点由原来的读取数据库,变更为读取Redis,以利用Redis的高并发提升站点性能目的. 环境说明: 1.假设表名为softs, 记录的更新时间字段名为 updateTime: 2.不考虑数据库的DELETE操作,只考虑INSERT和UPDATE操作: 3.流程中所有时间,都以数据库时间为准,以避免不同服务器之间的时间误差,导致数据遗漏. 4.重要的前提条件:数据库执行INSERT和UPDAT

硬盘数据恢复+数据库数据修复过程

客户的一台DS5020 光纤存储出现故障导致数据丢失,该存储使用了16块硬盘组成raid磁盘阵列.10号盘和13号盘掉线,6号盘警告,需要进行数据恢复. Raid磁盘阵列故障情况:通过IBM storage manager将当前存储的完整日志状态备份下来,解析备份出来的存储日志获得了关于逻辑卷结构的部分信息.将客户服务器中所有磁盘按照固定顺序排序移出槽位进行测试发现该磁盘阵列中除6号盘smart状态为"警告"外其他硬盘均正常. 磁盘阵列数据恢复过程:工程师首先在windows环境下把r

意外断电造成RAID 5阵列卡数据故障的恢复方法

由于技术的不断进步,不同型号的服务器出现RAID 5故障后,处理方法也不同.现在大型应用程序的网络拓朴结构,一般都采用C/S结构或B/S结构,至少需要一台装有大型数据库的服务器安放于中心机房.基于对服务器安全性与可靠性的考虑,通常会对服务器的磁盘采用磁盘阵列RAID(Redundant Array of Inexpensive Disk)进行磁盘冗余备份.其中RAID 5阵列级别为无独立校验磁盘的奇偶校验磁盘阵列,采用数据分块和独立存取技术,能在同一磁盘上并行处理多个访问请求,同时允许阵列中的任

mysql 数据库表错误 修复 总结

mysql 数据库坏表修复 萝卜白菜,各有所爱,能干活.能修复表才是王道!!! 修复之前谨记:先备份数据库 (备份完成后再进行以下修复操作) 可以mysqldump -A  > all.sql   进行全库备份  (mysqldump导出错误的时候可以省略错误的表进行导出其他的数据添加选项   --ignore-table=table_name  )  也可以进入到/usr/local/shell/ 执行  mysql_backup.sh进行备份数据库  以上两种方式都不可以备份 可以进入到/d

MS Sql Server 数据库或表修复(DBCC CHECKDB)

MS Sql Server 提供了很多数据库修复的命令,当数据库质疑或是有的无法完成读取时可以尝试这些修复命令.  1. DBCC CHECKDB  重启服务器后,在没有进行任何操作的情况下,在SQL查询分析器中执行以下SQL进行数据库的修复,修复数据库存在的一致性错误与分配错误. use master declare @databasename varchar(255) set @databasename='需要修复的数据库实体的名称' exec sp_dboption @databasena

SQL数据库可疑恢复 挂起恢复 置疑恢复 SQL数据库无法附加修复 附加报错 9003

数据类型 MSSQL 2008R2 数据大小 352 MB 故障检测 服务器几次断电后数据库可疑 无法附加 消息 1813,级别 16,状态 2,第 1 行 无法打开新数据库 'YXHIS20182'.CREATE DATABASE 中止. 消息 1813,级别 16,状态 2,第 1 行 无法打开新数据库 'YXHIS20182'.CREATE DATABASE 中止. 消息 9003,级别 20,状态 1,第 1 行 传递给数据库 'YXHIS20182' 中的日志扫描操作的日志扫描号 (2

pt-table-checksum校验主从库数据库数据

pt-table-checksum校验与pt-table-sync,前者主要用于数据的校验,验证主从是否一致,后者主要用来修复数据,两者一般情况结合起来用可以修复数据不一致的问题. 一.pt-table-checksum 安装 下载工具包 的最新地址如下: https://www.percona.com/downloads/percona-toolkit/LATEST/安装pt-table-checksum 和pt-table-sync命令.需要先安装percona-toolkit 工具集 1.

Visual Studio2017 数据库数据比较

一.前言 上一篇文章我们介绍了如何使用VS2017对SSMS数据库进行架构比较.这一篇文章我们将继续介绍如何对SSMS数据库的数据进行比较.数据的比较也是很常见的,比如我们要比较当前版本的数据库相对上一个版本在内容上有哪些改变.这个时候我们使用数据比较就可以很清楚看到异同,同样我们也可以对目标数据进行同步. 二.关于 从Visual Studio 2005版本开始,VS不仅开始支持“比较和同步数据库架构”,同时也开始支持“比较和同步数据库数据”. 三.开始演练 本次演练使用VS2017自带的SQ

C#在listview控件中显示数据库数据

一.了解listview控件的属性 view:设置为details columns:设置列 items:设置行 1.将listview的view设置为details 2.设置列属性 点击添加,添加一列 设置一列的Text属性,这就是列名 添加三列 3.编辑items属性,添加一行数据 编辑Text属性,添加一行的第一个数据 编辑subitems属性,添加一行中的其他数据 添加两个数据 填写结果 二.在listview中显示数据库数据 //在listview中显示数据库数据 private voi