SQL反模式学习笔记6 支持可变属性【实体-属性-值】

2014-10-11 17:21:31

目标:支持可变属性

反模式:使用泛型属性表。这种设计成为实体-属性-值(EAV),也可叫做开放架构、名-值对。

优点:通过增加一张额外的表,可以有以下好处

(1)表中的列很少;

(2)新增属性时,不需要新增列。不会影响现有表的结构;

(3)存储的字段内容不会为空值。

缺点:(1)查询语句变得更加复杂;

(2)使用EAV设计后,需要放弃传统的数据库设计所带来的方便之处,比如:无法保障数据完整性;

(3)无法使用SQL的数据类型,比如对日期、金钱等格式内容都只能保持为字符串类型;

(4)无法确保引用完整性;

(5)无法配置属性名。比如,有可能表中存在两条记录,

一条的attr_name是sex,一条attr_name是gender,都是表示性别;

(6)查询结果中有多个属性时,查询非常困难,且查询性能无法控制。

如何识别反模式:当出现以下情况时,可能是反模式

  (1)数据库不需要修改元数据库(表中的列属性)就可以扩展。还可以在运行时定义新的属性。

  (2)查询是连接数量非常多,且连接的数量可能会达到数据库的限制时,你的数据库的设计可能是有问题的。

  (3)普通的报表查询变的及其复杂甚至不且实际。

合理使用反模式:

  (1)关系数据库中使用EAV,就意味着放弃许多关系数据库范式的优点。

但是这不影响在某些程序中合理地使用这种设计来支持动态属性。

  (2)如果有非关系数据管理的需求,那最好的方法就是使用nosql数据库。

在传统数据库中使用EAV设计的缺点也体现在这些非关系数据库上。当元数据不具有固定格式时,

再简单的查询都会变得非常困难。上层应用就需要花费更多的时间、精力来组织数据结构。

解决方案:模型化子类型

  1、单表继承:所有属性都在一个单表上保存,增加属性时就扩充这个表。

当数据的子类型很少,以及子类型特殊属性很少,就可以使用单表继承。

缺点:(1)当程序需要加入新对象时,必须修改数据库来适应这些新对象。又由于这些新对象具有一些和老对象不用的属性,

因而必须在原有表里增加新的属性列,可能会遇到一个实际的问题,就是每张表的列的数量是有限制的。

(2)没有任何的元信息来记录哪个属性属于哪个子类型。

  2、实体表继承:为每个子类型创建一张独立的表,每个表包含哪些属于基类的共有属性,同时也包含了子类型特殊化的属性。

优点:(1)实体继承类设计相比于但表继承设计的优势在于提供了一种方法,

让你能组织在一行内存储一些和当前子类型无关的属性。

如果你引用一个并不存在于这张表中的属性列,数据库会自动提示你错误。

(2)不用像在单表继承设计里那样使用额外的属性来标记子类型。

缺点:很难将通用属性和子类特有属性区分开来。因此,如果将一个新的属性增加到通用属性中,

必须为每个子类表都添加一遍。

当你很少需要一次性查询多有子类型时,实体继承表设计是最好的选择。

  3、类表继承:把表当成面向对象里的类。

创建一张基类表,包含所有子类型的公共属性。对于每个子类型,创建一个独立的表,通过外键和基类表相连。

  4、半结构化数据模型:如果有很多子类型或者必须经常增加新的属性支持,那么可以用一个BLOB列来存储数据,

用XML或者JSON格式——同事包含了属性的名字和值。这叫做序列化大对象块。

        这个设计的优势是扩展性,缺点是,这样的结构中sql无法获取某个指定的属性。你必须或者整个blob字段并通过程序去解释这些属性。

    当你需要绝对的灵活性时,可以使用这个方案。

如果使用了EAV,那么可以先将全部属性取出,然后再做其他处理。

结论:Sql已经提供了一个方法来明确的定义属性——在明确的列中。即:为元数据使用元数据。

  

时间: 2025-01-04 05:29:34

SQL反模式学习笔记6 支持可变属性【实体-属性-值】的相关文章

SQL反模式学习笔记11 限定列的有效值

2014-10-14 08:46:07 目标:限定列的有效值,将一列的有效字段值约束在一个固定的集合中.类似于数据字典. 反模式:在列定义上指定可选值 1. 对某一列定义一个检查约束项,这个约束不允许往列中插入或者更新任何会导致约束失败的值:            create table Bugs(status varchar(20) check(status in('new','in progress','fixed'))). 2.使用域或者用户自定义类型(UDT)等方法.        

SQL反模式学习笔记8 多列属性

2014-10-13 10:32:12 目标:存储多值属性 反模式:创建多个列.比如一个人具有多个电话号码.座机号码.手机号码等. 1.查询:多个列的话,查询时可能不得不用IN,或者多个OR: 2.添加.删除时确保唯一性.判断是否有值:这些都很麻烦: 3.字段的列数无法确定具体数量. 如何识别反模式:当出现以下情况时,可能是反模式 1.应该支持的动态列的数量是多少? 2.如何才能在SQL查询中同时查询多列? 合理使用反模式: 在默写情况下,一个属性可能有固定数量的候选值,并且他们的存储位置和顺序

SQL反模式学习笔记14 关于Null值的使用

2014-10-14 14:53:25 目标:辨别并使用Null值 反模式:将Null值作为普通的值,反之亦然 1.在表达式中使用Null: Null值与空字符串是不一样的,Null值参与任何的加.减.乘.除等其他运算,结果都是Null: Null值与False也不同.And.Or和Not三个bool操作如果设计Null,结果很迷惑. 2.搜索运行为空的列:任何与Null的比较逗返回“未知”,既不是True,也不是False. 在Where表达式中只能使用 Is Null 或者 Is Not N

SQL反模式学习笔记9 元数据分裂

2014-10-13 15:04:34 目标:支持可扩展性.优化数据库的结构来提升查询的性能以及支持表的平滑扩展. 反模式:克隆表与克隆列 1.将一张很长的表拆分成多张较小的表,使用表中某一个特定的数据字段来给这些拆分出来的表命名. 2.将一个列拆分成多个之列,使用别的列中的不同值给拆分出来的列命名. 为了达到减少每张表记录数的目的,你不得不创建一些有很多列的表,或者创建很多很多表.但是在2个方案中, 你会发现随着数据量的增长,会有越来越多的表或者列. 缺点:(1)不断产生新的表.要将数据拆分到

SQL反模式学习笔记3 单纯的树

2014-10-11 08:59:48 在树形结构中,实例被称为节点.每个节点都有多个子节点与一个父节点. 最上层的节点叫做根(root)节点,它没有父节点. 最底层的没有子节点的节点叫做叶(leaf). 中间的节点简单地称为非叶节点(nonleaf). 目标:分成存储于查询,比如:系统字典.组织机构.省份区域等树形结构数据或者以层级方式组织的数据. 反模式:总是依赖父节点,邻接表. 最简单的实现方式是添加ParentId字段,引用同一张表的主键ID. 邻接表维护树比较方便,但是查询很笨拙,如果

SQL反模式学习笔记16 使用随机数排序

2014-10-15 10:06:48 目标:随机排序,使用高效的SQL语句查询获取随机数据样本. 反模式:使用RAND()随机函数 SELECT * FROM Employees AS e ORDER BY RAND() Limit 1 缺点:无法利用索引,每次选择的时候都不同且不可预测.进行全表遍历,性能极差. 如何识别反模式:当出现以下情况时,可能是反模式 1.在SQL中,返回一个随机行速度非常慢: 2.要获取所有的记录然后随机一个.要如何增加程序可使用的内存大小? 3.有些列出现的频率比

SQL反模式学习笔记1 开篇

什么是“反模式” 反模式是一种试图解决问题的方法,但通常会同时引发别的问题. 反模式分类 (1)逻辑数据库设计反模式 在开始编码之前,需要决定数据库中存储什么信息以及最佳的数据组织方式和内在关联方式. 这包含了如何设计数据库的表.字段和关系. (2)物理数据库设计反模式 在确定了需要存储哪些数据之后,使用你所知的RDBMS关系型数据库技术特性尽可能高效地实现数据库管理. 这包含了定义表和索引,以及选择数据类型.也需要是要SQL的“数据定义语言”,比如Create Table语句. (3)查询反模

SQL反模式学习笔记13 使用索引

2014-10-14 10:29:53 目标:优化性能 改善性能最好的技术就是在数据库中合理地使用索引.  索引也是数据结构,它能使数据库将指定列中的某个值快速定位在相应的行. 反模式:无规划的使用索引 1.不使用索引或索引不足 2.使用了太多的索引或一些无效的索引 (1)大多数数据库会自动地位主键建立索引,因此额外再定义一个索引就是冗余. 这个额外的索引并无任何好处,它只会成为额外的开销. (2)字符串索引很大,而且也不太可能对它进行全匹配查找. (3)使用组合索引是一个很好的选择,但是大部分

SQL反模式学习笔记22 伪键洁癖,整理数据

2014-10-17 16:31:50 目标:整理数据,使不连续的主键Id数据记录变的连续. 反模式:填充断档的数据空缺. 1.不按照顺序分配编号 在插入新行时,通过遍历表,找到的第一个未分配的主键编号分配给新行,来代替原来自动分配的伪主键机制. 使用Select Max(Id) + 1 这种查询语句,会出现并发访问的问题. 2.为现有数据行重新编号:通常做法是找到主键最大的行,然后用最小的未被使用的值来更新它. 缺点:(1)SQL语句比较麻烦:   (2)必须同时更新所有引用了你重新分配了主键