SQL反模式学习笔记17 全文搜索

2014-10-16 09:56:37

目标:全文搜索

使用SQL搜索关键字,同时保证快速和精确,依旧是相当地困难。

SQL的一个基本原来(以及SQL所继承的关系原理)就是一列中的单个数据是原子性的。

反模式:模式匹配

使用Like 或者正则表达式。

  缺点:(1)无法使用索引,进行全表遍历,非常耗时,性能极低。

     (2)有时候会返回医疗之外的结果。select * from bugs where description like ‘%one%‘,

返回结果可能是money、prone、lonely。

正则表达式可能会为单词边界提供一个模式来解决单词的匹配问题。

如何识别反模式:当出现以下情况时,可能是反模式

  1、如何在like表达式的2个通配符之间插入一个变量?

  2、如何写一个正则表达式来检查一个字符串是否包含多个单词、不包含一个特定的单词,或者包含给定单词的任意形式?

  3、网站的搜索功能在增加了很多文档进去之后慢的不可理喻。

合理使用反模式

  1、性能总是最重要的,如果一些查询过程很少执行,就不必要花很多功夫去对它进行优化

  2、使用模式匹配操作进行很复杂的查询是很困难的,但是如果你为了一些简单的需求设计这样的模式匹配,它们能帮助你用

最少的工作量获得正确的结果。

解决方案:使用工具

  最好的方案就是使用特殊的搜索引擎技术,而不是SQL。

  另一个方案是将结果保存起来从而减少重复的搜索开销。

  1、MySQL中的全文索引:可以再一个类型为Char、varchar或者Text的列上定义一个全文索引。然后使用Match函数来搜索。

  2、Oracle中的文本索引:Context、Ctxcat、Ctxxpath、Ctxule。

  3、SQL Server中的全文搜索:使用Contains()操作符来使用全文索引。使用之前需要通过复杂的步骤来配置。

  4、PostgreSQL的文本搜索:提供一个复杂大可大量配置的方式来将文本转换为可搜索的词汇集合,并且让这些文档能够进行

模式匹配搜索。

  5、SQLite的全文搜索:使用SQLite的扩展组件来实现。

  6、第三方搜索引擎:

    (1)Sphinx Search:开源的搜索引擎,用于MySQL以及PostgreSQL来配套使用。

    (2)Apache Lucene:是一个针对Java程序的成熟搜索引擎。

  7、实现自己的搜索引擎:

使用反向索引方案:反向索引就是一个所有可能被搜索的单词列表。

    (1)定义一个KeyWords表来记录所有用户搜索的关键字,然后定义一个交叉表来建立多对多的关系。

    (2)将每个关键字和匹配的内容添加到交叉表中。

        当有新的搜索单词,就使用like查询结果,并将结果保存到交叉表里,这样下次就不必like了。

            当有新的文档入库,就需要用触发器(或者定时)去填充交叉表。

结论:不必使用SQL来解决所有问题。

时间: 2024-08-25 06:18:18

SQL反模式学习笔记17 全文搜索的相关文章

SQL反模式学习笔记6 支持可变属性【实体-属性-值】

2014-10-11 17:21:31 目标:支持可变属性 反模式:使用泛型属性表.这种设计成为实体-属性-值(EAV),也可叫做开放架构.名-值对. 优点:通过增加一张额外的表,可以有以下好处 (1)表中的列很少: (2)新增属性时,不需要新增列.不会影响现有表的结构: (3)存储的字段内容不会为空值. 缺点:(1)查询语句变得更加复杂: (2)使用EAV设计后,需要放弃传统的数据库设计所带来的方便之处,比如:无法保障数据完整性: (3)无法使用SQL的数据类型,比如对日期.金钱等格式内容都只

SQL反模式学习笔记20 明文密码

2014-10-17 10:50:26 目标:恢复或重置密码 反模式:使用明文存储密码 1.存储密码 使用明文存储密码或者在网络上传递密码是不安全的. 如果攻击者截取到你用来插入(或者修改)密码的sql语句,就可以获得密码.     黑客获取密码的方式有很多种: (1)在客户端和服务器端数据库交互的网络线路上接货数据包.比如使用Wireshark黑客软件. (2)在数据库服务器上搜索SQL的查询日志. (3)从服务器或者备份介质上读取数据库备份文件内的数据. 2.验证密码:同上. 3.在Emai

SQL反模式学习笔记3 单纯的树

2014-10-11 08:59:48 在树形结构中,实例被称为节点.每个节点都有多个子节点与一个父节点. 最上层的节点叫做根(root)节点,它没有父节点. 最底层的没有子节点的节点叫做叶(leaf). 中间的节点简单地称为非叶节点(nonleaf). 目标:分成存储于查询,比如:系统字典.组织机构.省份区域等树形结构数据或者以层级方式组织的数据. 反模式:总是依赖父节点,邻接表. 最简单的实现方式是添加ParentId字段,引用同一张表的主键ID. 邻接表维护树比较方便,但是查询很笨拙,如果

SQL反模式学习笔记1 开篇

什么是“反模式” 反模式是一种试图解决问题的方法,但通常会同时引发别的问题. 反模式分类 (1)逻辑数据库设计反模式 在开始编码之前,需要决定数据库中存储什么信息以及最佳的数据组织方式和内在关联方式. 这包含了如何设计数据库的表.字段和关系. (2)物理数据库设计反模式 在确定了需要存储哪些数据之后,使用你所知的RDBMS关系型数据库技术特性尽可能高效地实现数据库管理. 这包含了定义表和索引,以及选择数据类型.也需要是要SQL的“数据定义语言”,比如Create Table语句. (3)查询反模

SQL反模式学习笔记16 使用随机数排序

2014-10-15 10:06:48 目标:随机排序,使用高效的SQL语句查询获取随机数据样本. 反模式:使用RAND()随机函数 SELECT * FROM Employees AS e ORDER BY RAND() Limit 1 缺点:无法利用索引,每次选择的时候都不同且不可预测.进行全表遍历,性能极差. 如何识别反模式:当出现以下情况时,可能是反模式 1.在SQL中,返回一个随机行速度非常慢: 2.要获取所有的记录然后随机一个.要如何增加程序可使用的内存大小? 3.有些列出现的频率比

SQL反模式学习笔记13 使用索引

2014-10-14 10:29:53 目标:优化性能 改善性能最好的技术就是在数据库中合理地使用索引.  索引也是数据结构,它能使数据库将指定列中的某个值快速定位在相应的行. 反模式:无规划的使用索引 1.不使用索引或索引不足 2.使用了太多的索引或一些无效的索引 (1)大多数数据库会自动地位主键建立索引,因此额外再定义一个索引就是冗余. 这个额外的索引并无任何好处,它只会成为额外的开销. (2)字符串索引很大,而且也不太可能对它进行全匹配查找. (3)使用组合索引是一个很好的选择,但是大部分

SQL反模式学习笔记22 伪键洁癖,整理数据

2014-10-17 16:31:50 目标:整理数据,使不连续的主键Id数据记录变的连续. 反模式:填充断档的数据空缺. 1.不按照顺序分配编号 在插入新行时,通过遍历表,找到的第一个未分配的主键编号分配给新行,来代替原来自动分配的伪主键机制. 使用Select Max(Id) + 1 这种查询语句,会出现并发访问的问题. 2.为现有数据行重新编号:通常做法是找到主键最大的行,然后用最小的未被使用的值来更新它. 缺点:(1)SQL语句比较麻烦:   (2)必须同时更新所有引用了你重新分配了主键

SQL反模式学习笔记8 多列属性

2014-10-13 10:32:12 目标:存储多值属性 反模式:创建多个列.比如一个人具有多个电话号码.座机号码.手机号码等. 1.查询:多个列的话,查询时可能不得不用IN,或者多个OR: 2.添加.删除时确保唯一性.判断是否有值:这些都很麻烦: 3.字段的列数无法确定具体数量. 如何识别反模式:当出现以下情况时,可能是反模式 1.应该支持的动态列的数量是多少? 2.如何才能在SQL查询中同时查询多列? 合理使用反模式: 在默写情况下,一个属性可能有固定数量的候选值,并且他们的存储位置和顺序

SQL反模式学习笔记9 元数据分裂

2014-10-13 15:04:34 目标:支持可扩展性.优化数据库的结构来提升查询的性能以及支持表的平滑扩展. 反模式:克隆表与克隆列 1.将一张很长的表拆分成多张较小的表,使用表中某一个特定的数据字段来给这些拆分出来的表命名. 2.将一个列拆分成多个之列,使用别的列中的不同值给拆分出来的列命名. 为了达到减少每张表记录数的目的,你不得不创建一些有很多列的表,或者创建很多很多表.但是在2个方案中, 你会发现随着数据量的增长,会有越来越多的表或者列. 缺点:(1)不断产生新的表.要将数据拆分到