SQL SERVER 运维日记-数据库备份

概述

昨天下午突然看到，《炉石传说》游戏数据库发生宕机并引发数据丢失事故的新闻。刚看到时，满满的不可思议。暴雪啊，网易啊。

都是很牛叉的公司。他们出的游戏我都是很喜欢的。

当我看到，第一时间着手抢修，重启服务器，并尝试数据恢复时，我的想法是他们的高可用方案呢？为什么不马上切换？

当我看到相关备份数据库也出现故障时，就更无语了。其实这样的事情在我们的客户每年都会遇到很多。前不久就有一个医院，数据库和备份都同时损坏，而且没有高可用的方案。

虽然最终帮他们修复了好数据库，但还是丢失部分数据，而且中间1天时间，业务都是手动操作，严重影响业务。

对于炉石这样的大公司，对应的方案应该是做得很全的，本次事故也可能是有其他的原因。

分析

这个原因暂且不论，当遇到同样的问题时，相关的运维和DBA都是很绝望的。总结下上面的问题：

1.缺乏高可用方案

2.制定更好的备份的策略

解决

有小伙伴提到高可用性，这里没有写。主要高可用方案太多，在一篇文章难以说清楚，所以本文先给出备份的解决方案。

下面给出我之前给某外企制定的备份策略，可以解决上面提到的备份的问题。小伙伴们可以参考下：

备份的位置

1.本地的备份，放置于和数据库文件不同的物理磁盘

2.异机备份。使用自动同步软件实时把备份同步到专门的NAS

3.异地备份（可选）

备份方式

首先，恢复模式强烈建议使用完整模式。为了保证数据库损坏时，能最快速度恢复业务。

1.每周全备

2.每天差异

3.每半小时日志

备份的频率根据具体的业务情况可自行调整。

备份的选项

到目前为止我们的备份策略看上去很完美了。可事实是这样的吗？答案是否定的。

我们做好了看似完美的备份。但是如果我们的数据库本身已经存在页损坏，那么我们的做再多备份也是徒劳。因为备份的文件也是损坏的。

那我们如何解决呢？最好的方法就是定期还原备份，然后立即运行DBCC CHECKDB。如果当时条件不允许持续还原和检查，那么使用RESTORE VERIFYONLY命令就是你另一个最好的选择了。但是RESTORE VERIFYONLY并不是单独使用的。它必须配合WITH CHECKSUM.意思就是，在BACKUP 的使用使用WITH CHECKSUM 参数，然后定期对备份的文件运行RESTORE VERIFYONLY 来验证备份文件的有效性。如果数据库中的某些页面损坏，使用WITH CHECKSUM 去备份的作业会马上失败。这可以让我们第一时间发现数据库页损坏的问题。

举个栗子：

BACKUP DATABASE AdventureWorks TO DISK = ‘G:/backups/AdventureWorks_full.bak‘ WITH CHECKSUM

假如你更改文件数据备份文件，然后在那个文件上运行RESTORE VERIFYONLY的话，会产生如下提示：

Server: Msg 3189, Level 16, State 1, Line 1
Damage to the backup set was detected.

Server: Msg 3013, Level 16, State 1, Line 1
VERIFY DATABASE is terminating abnormally.

设备 ‘d:\tttttt.bak‘ 上的介质簇的结构不正确。SQL Server 无法处理此介质簇。

报警

备份有可能因为各种原因而失败，比如备份磁盘的空间满了，等数据库损坏的时候，突然发现备份任务失败了，再完美备份策略百搭。所以对备份任务，增加邮件报警机制，如果备份失败了，可以第一时间知道并解决。

时间： 2024-12-30 04:37:01

SQL SERVER 运维日记-数据库备份

概述

分析

解决

备份的位置

备份方式

备份的选项

报警

SQL SERVER 运维日记-数据库备份的相关文章

SQL SERVER运维日记--收缩数据库

使用SQL Server Management Studio 创建数据库备份作业

推荐一款小巧的SQL Server运维工具SqlOps

SQL Server 2008 R2 主从数据库同步

SQL Server 2000中的完整备份、差异备份操作

Sql Server来龙去脉系列之四数据库和文件

SQL Server 2008 R2 主从数据库同步（日志传送的方式 Log Shipping）

Sql Server 逻辑文件 '' 不是数据库 '' 的一部分。请使用 RESTORE FILELISTONLY 来列出逻辑文件名。

运维日记-Exchange服务器重新加域后处理-20140712