一、故障描述
成都某客户,存储损坏,数据库崩溃。重组存储,恢复数据库文件,发现有四个ndf文件大小变为0 KB。数据库大小约80TB。数据库中有1223个文件,数据库每10天生成一个NDF文件,每个NDF大约500GB,数据库包含两个LDF文件。
二、故障分析
存储损坏,NDF文件大小变为0 KB,根据NDF文件在磁盘上可能存在。可以通过编写数据库扫描碎片程序,扫描数据库碎片、拼接碎片恢复NDF文件,然后修复数据库。
三、恢复过程
1 磁盘扫描,扫描数据库碎片
2 拼接碎片
根据NDF文件的页面特征,按照文件号,页号拼接碎片,重组生成出这些0kb的NDF文件。
3 检测数据库文件
使用北亚MSSQL文件检测工具对所有数据文件进行检测,结果:拼接出的4个NDF文件有少量的空页,其他文件正常。
4 进一步对损坏lun进行分析,发现这些数据页在存储层面已经不存存在了。不能恢复这些数据页,即这4个文件不能完全恢复
5尝试附加数据库,报错 “处理数据库的日志时出错,如果可能请从备份还原。如果没有可用的备份,可能需要重新生成日志”。
6、无日志附加数据库
修改系统表,从系统表剔除掉最后添加的LDF文件,计算并修改校验。进行无日志附加数据库。报错:数据库存在一致性错误,
如下图一:
7 修改系统表中这4个损坏的NDF文件的块数量,使其和恢复出来的文件的块数量一致
修改系统表,将系统表记录这4个NDF的块数量的值改为和扫描出来的NDF文件块数量一致,同时更改这4个NDF文件首页,使得数据库中记录的文件的块数量和拼接出来的NDF的块数量一致,计算并修改校验值。
8 无日志附加数据库,报错数据库存在一致性错误,
如下图二:
9 逐个修改系统表中这4个损坏的NDF文件的块数量,使其值等于报错块前一页
分析报错,由于空页都出现在这4个NDF后面十几个块中,截断文件对数据完整性影响不大。重新修改系统表和NDF文件,将数据库中记录NDF块数量的值改至报错的前一页,计算并修改校验。
10 、重新进行无日志附加数据库,报错“由于数据库没有完全关闭,无法重新生成日志”
如下图三:
11、修改MDF文件中的数据库的状态值,让数据库认为是完全关闭的
12、重新附加数据库,附加成功
如下图四:
四、结果
数据库文件成功附加后,客户通过数据库中的对象进行初步查询、验证,表中信息基本完整,数据得到恢复。数据验证完毕,客户对恢复结果表示满意。