SQL反模式学习笔记22 伪键洁癖，整理数据

2014-10-17 16:31:50

目标：整理数据，使不连续的主键Id数据记录变的连续。

反模式：填充断档的数据空缺。

　　1、不按照顺序分配编号

在插入新行时，通过遍历表，找到的第一个未分配的主键编号分配给新行，来代替原来自动分配的伪主键机制。

使用Select Max(Id) + 1 这种查询语句，会出现并发访问的问题。

　　2、为现有数据行重新编号：通常做法是找到主键最大的行，然后用最小的未被使用的值来更新它。

　　　　缺点：（1）SQL语句比较麻烦；

　　　　　　（2）必须同时更新所有引用了你重新分配了主键的行的子记录；

　　　　　　　（3）无法避免产生新的断档。

　　3、制造数据差异

　　　　如果别的外部系统依赖于数据库中的主键来定义数据，那么你的更新操作就会导致那个系统中的引用失效。

　　　　重用主键不是一个号的注意，因为断档往往是由于一些合理的删除或者回滚数据所造成的。

　　　　别因为那些伪键看上去是没用的而重新分配他们。

如何识别反模式：当出现以下情况时，可能是反模式

　　1、在我回滚了一个插入操作后，要怎么重用囊而自动生成的标识？

伪键一旦生成后不会回滚。如果非要回滚，RDBMS就必须在一耳光事务的声明周期内生成一个伪键，

而这在多个客户端并发地插入数据时，会导致竞争或者死锁。

　　2、bugId为3的这条记录怎么了？

　　3、如何找到第一个未使用的Id？

　　4、自增长整形id的数字标识如果达到了最大值怎么办？

合理使用反模式：

　　没有理由要去改变伪键的值，由于它的值本身并没有什么重要的意义。如果这个主键列有实际的意义，那么这就是一个自然键，而不是伪键。

解决方案：

　　主键的值必须是唯一且非空的，因而你才能使用主键来唯一确定一行记录，但这是主键的唯一约束，

他们不需要一定非得是连续值才能用来标记行。

　　1、定义行号：使用Row_Number()或者Limit等关键字来实现；

　　2、使用Guid：数据库全局唯一标识符。

优点：（1）可以再多个数据库服务器上并发地生成伪键，而不用担心生成同样的值。

（2）不存在断档的问题。

缺点：（1）Guid的值太长，不方便输入；

　　　　　　　（2）Guid的值是随机的，因此找不到任何规则或者依靠最大值来判断哪一行的最新插入的；

　　　　　　　（3）Guid的存储需要16字节，这比传统的4自检整形伪键占用更多的控件，并且查询的速度更慢

结论：将伪键当做行的唯一性标识，但它们不是行号

时间： 2024-10-03 23:29:39

SQL反模式学习笔记22 伪键洁癖，整理数据的相关文章

SQL反模式学习笔记5 外键约束【不用钥匙的入口】

2014-10-11 14:53:20 目标:简化数据库架构一些开发人员不推荐使用引用完整性约束,可能不使用外键的原因有一下几点: 1.数据更新有可能和约束冲突: 2.当前的数据库设计如此灵活,以至于不支持引用完整性约束: 3.数据库为外键建立的索引会影响性能: 4.当前使用的数据库不支持外键.比如MySQL的MyISAM存储引擎,或者比SQLite3.6.19早的版本: 5.定义外键的语法并不简单,还需要查阅. 反模式:无视约束,即不使用约束省略外键约束能使得数据库设计更加简单.灵活,或者

SQL反模式学习笔记7 多态关联

2014-10-13 09:50:54 目标:引用多个父表反模式:使用多用途外键.这种设计也叫做多态关联,或者杂乱关联. 多态关联和EAV有着相似的特征:元数据对象的名字是存储在字符串中的. 在多态关联中,父表的名字是存储在Issue_Type单独一列中,有时候这样的设计被称作:混合数据与原数据. 查询示例: select * from A as a left join B as b on a.xId=b.Id and a.xType='b'

SQL反模式学习笔记4 需要ID，建立主键规范

2014-10-11 10:23:31 目标:建立主键规范反模式:每个数据库中的表都需要一个伪主键Id 在表中,需要引入一个对于表的域模型无意义的新列来存储一个伪值,这一列被用作这张表的主键, 从而通过它来确定表中的一条记录,即便其他的列允许出现适当的重复项.这种类型的主键列我们通常称其为“伪主键”或者“代理键”. 1.冗余键值:如果存在一个逻辑上更为自然的主键并且也满足unique约束,那么id就多余了: 2.允许重复项:伪主键本身确保了表的数据不会存在重复项,所以也就无法避免表中的其它数据

SQL反模式学习笔记6 支持可变属性【实体-属性-值】

2014-10-11 17:21:31 目标:支持可变属性反模式:使用泛型属性表.这种设计成为实体-属性-值(EAV),也可叫做开放架构.名-值对. 优点:通过增加一张额外的表,可以有以下好处 (1)表中的列很少: (2)新增属性时,不需要新增列.不会影响现有表的结构: (3)存储的字段内容不会为空值. 缺点:(1)查询语句变得更加复杂: (2)使用EAV设计后,需要放弃传统的数据库设计所带来的方便之处,比如:无法保障数据完整性: (3)无法使用SQL的数据类型,比如对日期.金钱等格式内容都只

SQL反模式学习笔记3 单纯的树

2014-10-11 08:59:48 在树形结构中,实例被称为节点.每个节点都有多个子节点与一个父节点. 最上层的节点叫做根(root)节点,它没有父节点. 最底层的没有子节点的节点叫做叶(leaf). 中间的节点简单地称为非叶节点(nonleaf). 目标:分成存储于查询,比如:系统字典.组织机构.省份区域等树形结构数据或者以层级方式组织的数据. 反模式:总是依赖父节点,邻接表. 最简单的实现方式是添加ParentId字段,引用同一张表的主键ID. 邻接表维护树比较方便,但是查询很笨拙,如果

SQL反模式学习笔记16 使用随机数排序

2014-10-15 10:06:48 目标:随机排序,使用高效的SQL语句查询获取随机数据样本. 反模式:使用RAND()随机函数 SELECT * FROM Employees AS e ORDER BY RAND() Limit 1 缺点:无法利用索引,每次选择的时候都不同且不可预测.进行全表遍历,性能极差. 如何识别反模式:当出现以下情况时,可能是反模式 1.在SQL中,返回一个随机行速度非常慢: 2.要获取所有的记录然后随机一个.要如何增加程序可使用的内存大小? 3.有些列出现的频率比

SQL反模式学习笔记13 使用索引

2014-10-14 10:29:53 目标:优化性能改善性能最好的技术就是在数据库中合理地使用索引. 索引也是数据结构,它能使数据库将指定列中的某个值快速定位在相应的行. 反模式:无规划的使用索引 1.不使用索引或索引不足 2.使用了太多的索引或一些无效的索引 (1)大多数数据库会自动地位主键建立索引,因此额外再定义一个索引就是冗余. 这个额外的索引并无任何好处,它只会成为额外的开销. (2)字符串索引很大,而且也不太可能对它进行全匹配查找. (3)使用组合索引是一个很好的选择,但是大部分

SQL反模式学习笔记8 多列属性

2014-10-13 10:32:12 目标:存储多值属性反模式:创建多个列.比如一个人具有多个电话号码.座机号码.手机号码等. 1.查询:多个列的话,查询时可能不得不用IN,或者多个OR: 2.添加.删除时确保唯一性.判断是否有值:这些都很麻烦: 3.字段的列数无法确定具体数量. 如何识别反模式:当出现以下情况时,可能是反模式 1.应该支持的动态列的数量是多少? 2.如何才能在SQL查询中同时查询多列? 合理使用反模式: 在默写情况下,一个属性可能有固定数量的候选值,并且他们的存储位置和顺序

SQL反模式学习笔记9 元数据分裂

2014-10-13 15:04:34 目标:支持可扩展性.优化数据库的结构来提升查询的性能以及支持表的平滑扩展. 反模式:克隆表与克隆列 1.将一张很长的表拆分成多张较小的表,使用表中某一个特定的数据字段来给这些拆分出来的表命名. 2.将一个列拆分成多个之列,使用别的列中的不同值给拆分出来的列命名. 为了达到减少每张表记录数的目的,你不得不创建一些有很多列的表,或者创建很多很多表.但是在2个方案中, 你会发现随着数据量的增长,会有越来越多的表或者列. 缺点:(1)不断产生新的表.要将数据拆分到