Design7:数据删除设计

在设计一个新系统的Table Schema的时候,不仅需要满足业务逻辑的复杂需求,而且需要考虑如何设计schema才能更快的更新和查询数据,减少维护成本。

模拟一个场景,有如下Table Schema:

Product(ID,Name,Description)

在设计思路上,ID是自增的Identity字段,用以唯一标识一个Product;在业务逻辑上要求Name字段是唯一的,通过Name能够确定一个Product。业务上和设计上有所冲突在所难免,解决冲突的方法其实很简单:将ID字段做主键,并创建clustered index;在Name字段上创建唯一约束,保证Product Name是唯一的。

这样的Table Schema 设计看似完美:ID字段具有做clustered index的天赋:窄类型,自增,不会改变;Name上的唯一约束,能够满足业务逻辑上的需求。但是,如果业务人员操作失误,将Product 的 Name 写错,需要将其删除,最简单的方式是使用delete 命令,直接将数据行删除,但是这种方式带来的隐患特别大:如果业务人员一不小心将重要的数据删除,那么,恢复数据的成本可能非常高。如果数据库很大,仅仅为恢复一条数据,可能需要N个小时执行还原操作。如何设计Table Schema,才能避免在维护系统时出现被动的情况?

delete Product
where Name=‘xxx‘

设计目的:在短时间内恢复被误删除的数据,以使系统尽快恢复

在实际的产品环境中,数据删除操作有两种方式:软删除和硬删除,也称作Logic Delete 和 Physical Delete。硬删除是指使用delete命令,从table中直接删除数据行;软删除是在Table Schema中增加一个bit类型的column:IsDeleted,默认值是0,设置IsDeleted=1,表示该数据行在逻辑上是已删除的。

Product(ID,Name,Content,IsDeleted,DeletedBy)

软删除实际上是一个Update 操作,将IsDeleted字段更新为1,在逻辑上将数据删除,并没有将数据行从物理上删除。使用软删除,能够保留有限的数据删除的历史记录,以便audit,但是,这可能导致外键关系引用被逻辑删除的数据;如果历史记录太多,这又会导致数据表中有效数据行的密度降低,降低查询速度。

1,能够快速恢复被误删除的数据

用户的删除操作是将IsDeleted设置为1,在逻辑上表示删除数据,如果用户由于误操作,将重要数据行删除,那么只需要将IsDeleted重置为0,就能恢复数据。

update Product
set IsDeleted=1
where Name=‘xxx‘  -- or  use ID=yyyy as filter

2,每次引用该表时,必须设置filter

任何引用该表的查询语句中,必须设置Filter:IsDeleted=0,为来避免遗漏filter,可以创建视图,不直接引用该表,而是直接引用视图。

--view definition
select ID,Name,Content
from Product
where IsDeleted=0

3,手动处理外键关系

如果在该表上创建外键关系,那么可能存在外键关系引用被逻辑删除的数据,造成数据的不一致性,这可能是很难发现的bug:如果需要保持关键关系的一致性,需要做特殊的处理。在将数据行逻辑删除之时,必须在一个事务中,将外键关系全部删除。

4,不能被用作历史表

数据表是用来存储数据的,不是用来用户操作的历史记录。如果需要存储用户操作的历史记录,必须使用另外一个HistoryOperation来存储。

上述Product表中Name字段上存在一个唯一约束,如果用户将相同Name的Product重新插入到table中,Insert 操作因为违反唯一约束而失败,针对这种情况,软删除操作必须额外进行一次判断:

if exists(
    select null
    from Product
    where name =‘xxx‘ and IsDeleted=1
)
update
    set IsDeleted=0,
        ...
from Product
where name =‘xxx‘ and IsDeleted=1
else
insert Product(...)
values(....)

如果Product表的数据量十分大,额外的查询操作,会增加插入操作的延迟,同时,"无效"的历史数据降充斥在数据表中,也会降低数据查询的速度。

单纯从业务需求上考虑,软删是首选的design,定期清理软删的冗余数据,也可以提高数据查询的速度,不过,在清理数据时,可能会产生大量的索引碎片,造成并发性降低等问题。

5,将删除的数据存储到History表

使用软删除设计,增加IsDelete=1 字段,实际上降低了有效数据的密度,在使用软删除时,必须慎重考虑这一点。改进的删除数据的设计是:在一个事务中,将删除的数据存储到另外一个History表中。

delete from Product
output deleted.ID,
    deleted.Name,
    deleted.Content,
    ‘Delete‘ as CommandType
    ‘‘ as UpdatedBy,
    getdate() as UpdatedTime
into History_table
where Name =‘xxx‘ -- or use Id=yyy as filter

恢复误删的数据,只需要到History表找到相应的数据,将其重新插入到Prodcut 表中,并且,History 表中不仅可以存储用户删除操作的历史记录,而且可以存储用户更新的历史记录,对于系统的维护,解决用户纠纷和故障排除,十分有帮助。

Product(ID,Name,Content)
OperationHistory(ID,ProductID,ProductName,ProductContent,CommandType,UpdatedBy,UpdatedTime)

为设计Product 表的删除操作,需要两个Table,对于OperationHistory表,可以做的更通用一些。抛砖引玉,提供一个思路,我就不做扩展了。

时间: 2024-08-10 21:30:03

Design7:数据删除设计的相关文章

谈数据删除设计-以记账凭证为例

1 常见删除策略 凡是做业务逻辑系统, 总是离不开对删除逻辑的处理.本文论述重点是伪删除, 即字段标示状态, 这是在一些中小型系统开发中的单据等较重要数据的主流做法.但在此之前, 不妨先将常见删除策略列举一下: 数据库设置级联这个我没太懂是怎么回事, 不过网上也说缺点较多, 很少用到, 在此就不考虑了 触发器控制 -- 本文所写sql默认数据库均为mysql CREATE TRIGGER `tg_bf_insert_t_product_only` BEFORE INSERT ON `t_prod

Windows 8.1 重复数据删除——规划部署(二)

一.规划部署目标   Windows 8.1&Server 2012 的重复数据删除设计为安装到主要数据卷上,而无需添加任何附加的专用硬件.这意味着你可以安装和使用该功能,而不会影响服务器上的主要工作负载.默认设置为非侵入性的,因为它们允许在处理特定文件之前数据"存留时间"达到五天,默认的最小文件大小为 32 KB.该实现是为低内存和 CPU 利用率而设计的.如果内存利用率变高,则重复数据删除功能将等待可用的资源.管理员可以根据所涉及数据的类型以及该卷或特定文件类型的更改频率和

Windows Server 2012 重复数据删除

存储一直是企业降低运营成本的一项重大阻力,虽然近年来存储的成本一直在降低,但是企业数据量的增长速度却远远超过存储成本的降低速度,因此如何降低存储给企业带来的压力也是IT人员的一大考验 在Windows Server 2012中微软带来了一项令人惊喜的功能,他的名字叫做重复数据删除,重复数据删除使得 Windows Server 2012 能够在更少的物理空间中存储更多的数据,并获得比以前版本的 Windows 操作系统明显更高的存储效率. 简单阐述下重复数据删除的原理,在Windows Serv

重复数据删除(De-duplication)技术研究(SourceForge上发布dedup util)

dedup util是一款开源的轻量级文件打包工具,它基于块级的重复数据删除技术,可以有效缩减数据容量,节省用户存储空间.目前已经在Sourceforge上创建项目,并且源码正在不断更新中.该工具生成的数据包内部数据部局(layout)如下: --------------------------------------------------| header | unique block data | file metadata |--------------------------------

配置重复数据删除

下面我们来看如何在Windows Server 2012中配置重复数据删除,我这里用到了一套宿主机作为RDVH,然后在这上面启用重复数据删除,其实这是一个典型的VDI的场景,在Windows Server 2012中通过重复数据删除,分层存储等功能很大程度上我们可以降低VDI的成本,关于VDI这一方面之后还会继续谈到,今天我们先来看看如何配置重复数据删除. 配置重复数据删除其实非常简单 1.登录到RDVH这台服务器上,在服务器管理其中点击添加角色和功能 2.这里直接下一步 3.直接下一步 4.直

mongo数据删除和游标

数据删除 db.集合.remove(删除条件,是否只删除一个数据);默认删多条(false)true删除一条db.集合.remove({}) 删除所有元素但集合还在db.集合.drop() 删除集合 游标指数据可以一行行的进行操作,类似ResultSet数据处理在mongo里是需要使用find()就可以返回游标了对于操作返回的游标,可使用函数操作1.判断是否有下一行数据:hasNext()2.取当前数据: next() var cur=db.web.find();cur.hasNext();cu

SQL从入门到基础 - 04 SQLServer基础2(数据删除、数据检索、数据汇总、数据排序、通配符过滤、空值处理、多值匹配)

一.数据删除 1. 删除表中全部数据:Delete from T_Person. 2. Delete 只是删除数据,表还在,和Drop Table(数据和表全部删除)不同. 3. Delete 也可以带where子句来删除一部分数据:Delete from T_Person where FAge>20. 二.数据检索 1. 执行备注中的代码创建测试数据表. 2. 简单的数据检索:select *from T_Employee(*表示所有字段) 3. 只检索需要的列:select FNumber

分区表的数据删除

问题:堆表按天做了分区,表中只保留最近7天的数据.最近发现此表的数据空间明显比之前大,之前2G:现在6G,持续关注几天表中记录数保持平衡,但数据空间却在进一步增长.对应表所在的文件组也不停在自增长.分析:使用sys.dm_db_index_physical_stats查看表的碎片情况,发现在已删除记录的分区中堆的区碎片(avg_fragmentation_in_percent).数据页总数(page_count)不为零.查看另一个库下此表的备份表(同为分区表,保留最近30天的数据),表的数据空间

数据删除:delete

--数据删除:在删除的时候需要询问是否真的需要删除?同时在之后的项目中,删除往往不是真的删除,而是做删除标记--语法:--delete from 表名 where 条件 delete from Teacher--删除指定的人员信息delete from Teacher where Id=26--使用delete删除的特点:--1.它是一条条记录进行删除.每一次的删除都需要将操作记录到日志文件中,效率不高.--2.它不会让标识列重新从标识种子计算,而是继续之前的最后一条记录的标识列 --trunc