数据库索引的优化及SQL处理过程

想要设计出好的索引,首先必须了解SQL语句在数据库服务器中的处理过程,本文介绍数据库索引设计与优化中几个对索引优化非常重要的概念。

谓词

谓词就是条件表达式。 SQL语句的where子句由一个或者多个谓词组成。

WHERE   SEX = ‘M‘
        AND
        (WHIGHT > 90
        OR
        HEIGHT > 190)

上面这个WHERE子句有三个简单谓词:

  • SEX = ‘M’
  • WRIGHT > 90
  • HEIGHT >190

也可以认为是两个组合谓词:

  • WEIGHT > 90 OR HEIGHT >190
  • SEX = ‘M’ AND (WEIGHT > 90 OR HEIGHT >190)

优化器及访问路径

关系型数据库的一大优势就是,用户无须关系数据的访问方式。其访问路径是由DBMS的一个组件,即优化器来确定的。优化器是SQL处理过程的核心

这里以mysql为例展示一个简单的mysql服务器逻辑结构

在图中我们可以看到优化器的位置。

在SQL语句能够被真正执行之前,优化器必须首先确定如何访问数据。比如mysql会解析查询并创建解析树,然后对其进行各种优化,包括决定选择合适的索引,决定表的读取顺序。

谓词表达式是索引设计的主要入手点。如果一个索引能够满足SELECT查询语句的所有谓词表达式,那么优化器就很有可能建立起一个高效的访问路径。

索引片及匹配列

如果索引时以B+树的形式组织的,如果有谓词表达式WHERE A > 100 AND A < 110,那么查询到的叶子节点的范围会最终为下图:

图的左边是索引的一个窄片段,我们称这个片段为索引片。这个片段会被顺序扫描,上面索引行的值在100到110之间,相应的表行将通过同步读从表(也可能在缓冲池)中读取。

所以访问路径的成本很大程度上取决于这个索引片的厚度,也就是谓词表达式确定的值域范围。索引片越厚,需要扫描的索引页就越多,需要处理的索引记录也就越多,但最大的开销还是来自于增加的对表的同步读操作,每次表页读取的I/O操作可能需要10ms。相应的,索引片比较窄,就会减少对表的同步读取。

索引过滤及过滤列

并不是所有的索引列都能够定义索引片的大小。有时候,列可能既存在于WHERE子句中,也存在于索引中,但这个列却不能参与索引片的定义,举个例子。 表上有一联合索引(A,B,C,D),有如下sql语句:

WHERE   A = :A
        AND
        B > :B
        AND
        C = :C

我们需要确定WHERE子句中的谓词是否能够确定索引片大小:

  1. 首先我们看在WHERE子句中,该列是否至少有一个足够简单的谓词与之对应? 如果有,那么这个列就是匹配列。如果没有,那么这个列及其后面的索引列都是非匹配列。
  2. 如果该谓词是一个范围谓词,那么剩余的索引列都是非匹配列。
  3. 对于最后一个匹配列之后的索引列,如果拥有一个足够简单的谓词与其对应,那么该列为过滤列。 根据这个方法,我们可以判断出列A出现在一个等值谓词中,这是一个足够简单的谓词,因此A是匹配列,列B是一个范围谓词,也是匹配列。而B后面的列C无法定义索引片(无法让索引片变得更窄),但它依旧可以参与索引片的过滤过程。 也就是说我们通过列A和列B定义了索引片的大小,而列C不能,但是在访问表之前,依旧可以通过列C来过滤记录,能够减少不必要的表访问。列C就属于过滤列,它和列A列B一样重要。

总结:

上述WHERE子句有两个匹配列,列A和列B,他们定义了扫描的索引片。除此之外还有一个列C作为过滤列。所以只有当一行同时满足这三个谓词时才会访问表中的数据。

如果列B的谓词表达式是等值谓词,那么这三个列都可以作为匹配列。

如果取消列A的谓词表达式,那么索引片段就是整个索引的大小,列B和列C都仅仅只能用来过滤。

过滤因子

过滤因子描述的谓词的选择性,即表中满足谓词条件的记录行数所占的比例,它主要依赖于列值的分布情况。

计算过滤因子的公式为:

结果集数量/表行的数量

比如我们的一张用户表里有SEX这个字段,当加入一个女性用户,SEX=‘F’的过滤因子就会变大。

如果男性在表中占70%,那么SEX=‘M‘的过滤因子就是70%,SEX=‘F‘的过滤因子为30%,SEX列的最差情况下过滤因子为70%,平均过滤因子为50%。

如果男女比例一比一,那么列SEX最差情况下的过滤因子和平均过滤因子都是50%。

我们在评估一个索引是否合适的时候,最差情况下的过滤因子比平均过滤因子更重要,因为最差情况与最差输入相关,即在该输入条件下,基于特定索引的查询将消耗最长的时间。

组合谓词的过滤因子

那我们如何来计算三组合谓词表达式的过滤因子呢?

如果组成谓词的列之间非相关,那么组合谓词的过滤因子可以从单个谓词的过滤因子推导出来。

非相关的意思是两个谓词的值互不影响,例如我们有一张user表,里面有"province"和"city"两个字段,那这就是两个相关的谓词,因为城市的值必须是他所在的省下的城市。而CITY和BD(生日)就是不相关的谓词。

比如组合谓词 CITY = :CITY AND BD = :BD的过滤因子等于谓词 CITY = :CITY 和谓词 BD = :BD 的过滤因子的乘积。

如果列CITY有2000个不同的值,列BD有2700个不同的值,那么组合谓词的过滤因子就是:1/2000*1/2700。那么列组合[CITY,BD]总共有5400000个不同的值。

而对于有相关性的列,值会比这小很多。

我们在设计索引结构的时候,需要将SQL语句中的组合谓词看做一个整体来评估过滤因子。

过滤因子对索引设计的影响

很显然,需要扫描的索引片的大小对访问路径的性能影响至关重要。过滤因子越小,筛选出来的索引片的就越小,那就意味着访问表的次数越少。

假设表有联合索引 (MAKE, MODEL, YEAR)

对于sql语句:

SELECT PRICE, COLOR, DEALERNO
FROM CAR
WHERE   MAKE = :MAKE
        AND
        MODEL = :MODEL
ORDER BY PRICE

MAKE 和 MODEL都是匹配列。如果组合谓词的过滤因子是0.1%,那么所需要访问的索引片大小将为整个索引的0.1%。

而对于下面这个sql语句,这个索引就不大好了:

SELECT PRICE, COLOR, DEALERNO
FROM AUTO
WHERE   MAKE = :MAKE
        AND
        YEAR = :YEAR

由于联合索引的最左匹配原则,匹配列只有MAKE。过滤因子为1%,索引片比较大。

sql语句:

SELECT LNAME, FNAME, CNO
FROM CUST
WHERE   SEX=‘M‘
        AND
        (WEIGHT > 90
        OR
        HEIGHT > 190)
ORDER BY LNAME, FNAME

这个SQL语句查找身材高大有一定要求的男性,此时匹配谓词只有一个SEX,过滤因子正常情况下为50%,如果表有100万行记录,那么索引片就有50万行,这就是相当厚的索引片了。

练习

思考一下为以下两个SQL语句设计最佳的索引

SELECT LNAME, FNAME, CNO
FROM CUST
WHERE   SEX = ‘M‘
        AND
        HEIGHT > 190
ORDER BY LNAME, FNAME
SELECT LNAME, FNAME, CNO
FROM CUST
WHERE   SEX = ‘M‘
        AND
        (WHIGHT > 90
        OR
        HEIGHT > 190)
ORDER BY LNAME, FNAME

原文地址:https://www.cnblogs.com/yuanrw/p/11373975.html

时间: 2024-11-10 14:51:21

数据库索引的优化及SQL处理过程的相关文章

数据库索引以及优化

什么是索引? 索引用来快速地寻找那些具有特定值的记录. 索引是加速查询主要手段,索引是快速定位数据的技术. 索引是一种特殊的文件(innoDB(事务性数据库的首选引擎)数据表上的索引是表空间的一个组成部分),它们包含着对数据表里所有记录的引用指针. 索引:一种特殊的目录,聚集索引和非聚集索引 聚集索引:如同字典中按照字母查询,我们把这种正文内容本身就是一种按照一定规则排列的目录称为聚集引. 非聚集索引:如同字典中按照偏旁来查询某个字,我们把这种目录纯粹是目录,正文纯粹是正文的排序. 主键就是聚集

【SQLSERVER】数据库索引维护/优化

好几个月没更新博客了,一方面是因为换工作和搬家的原因,比较忙:另一方面是因为觉得对数据库的理解还不够深刻,花了些时间在学习上. 最近到新公司后,做了些数据库索引优化和维护上的工作,趁着今天有空,写个博客与大家分享下,其实一些源码也是网上拷贝的,只不过是做了些改进,主要想分享的是一个优化的思路. 一.索引的利弊   优点: 1.大大加快数据的检索速度: 2.创建唯一性索引,保证数据库表中每一行数据的唯一性: 3.加速表和表之间的连接: 4.在使用分组和排序子句进行数据检索时,可以显著减少查询中分组

Oracle 共享池和数据库高速缓冲区,引出SQL执行过程

共享池在数据库中可以说是相当重要动力资源,关系着数据库的性能瓶颈. 什么是共享池呢? 共享池是内存结构中SGA(系统全局区)的一部分,包含了:库缓冲区.数据字典缓冲区.服务器结果缓冲区.预留池,也是着四个区组成了共享池,这四个区的功能就是共享池的功能. 库缓冲区 共享SQL区:存放执行计划和解析树,当用户执行一条SQL语句时,共享池会根据SQL语句的复杂程度分出一定的内存给用户,当用户再次执行相同的SQL语句时,不必再次进行解析,提高执行语句的执行效率.类似于古代将领带兵打仗,皇帝就是用户,把将

大数据量数据库设计与优化方案(SQL优化)

转自:http://blog.sina.com.cn/s/blog_6c0541d50102wxen.html 一.数据库结构的设计 如果不能设计一个合理的数据库模型,不仅会增加客户端和服务器段程序的编程和维护的难度,而且将会影响系统实际运行的性能.所以,在一个系统开始实施之前,完备的数据库模型的设计是必须的. 在一个系统分析.设计阶段,因为数据量较小,负荷较低.我们往往只注意到功能的实现,而很难注意到性能的薄弱之处,等到系统投入实际运行一段时间后,才发现系统的性能在降低,这时再来考虑提高系统性

数据库索引、优化

参考地址: 如何看MS SQLSERVER数据库的执行计划https://blog.csdn.net/luoyanqing119/article/details/17022649 聚集索引和非聚集索引https://www.cnblogs.com/aspnethot/articles/1504082.html 数据库SQL优化大总结之 百万级数据库优化方案https://www.cnblogs.com/yunfeifei/p/3850440.html 数据库优化之程序操作优化https://ww

针对数据库索引的优化

本文主要对索引的创建及使用做详细描写叙述,至于为什么要使用索引.使用索引带来哪些优点.索引的分类等内容这里不再赘述,假设想知道请參考相关文档. 一.怎样正确的创建索引 1.对主键.外键 建立索引 因为开发中常常通过主键或者外键去查找某条或者多条记录,所以须要对主键.外键建立索引 2.对于常常出如今查询条件中的字段建立索引 对于常常出如今查询条件中的字段建立索引往往能提高查询效率 3.结合须要返回的字段创建索引 对于须要查询结果返回的字段建立组合索引能够不用查询数据表就能够得到数据.比如:sele

数据库-----&gt;数据库索引-----&gt;所以原理以及如何设计并优化索引

1.数据库索引原理: 参见博客 2.如何设计数据库索引以及优化数据库索引: 参见博客

海量数据处理之数据库索引

第一部分,数据库索引及其优化 一,什么是索引 数据库索引好比是一本书前面的目录,能加快数据库的查询速度. 例如这样一个查询:select * from table1 where id=44.如果没有索引,必须遍历整个表,直到ID等于44的这一行被找到为止:有了索引之后(必须是在ID这一列上建立的索引),直接在索引里面找44(也就是在ID这一列找),就可以得知这一行的位置,也就是找到了这一行.可见,索引是用来定位的. 索引分为聚簇索引和非聚簇索引两种,聚簇索引 是按照数据存放的物理位置为顺序的,而

索引、视图、SQL优化以及数据库存储过程

一.索引 索引是查询优化最有效和最常用的技术 索引是一个单独的.物理的数据库结构,它是指向表中某一列或若干列上的指针列表. mysql中,一个表的物理存储由两部分组成,一部分用于存放表的数据,另一部分存放索引,当进行数据搜索时,mysql会首先搜索索引,从中找到所需数据的起始位置的指针,再直接通过指针查找目标数据. 1.创建索引: CREATE INDEX 索引名 on 表名(要添加索引的列名) 可以给一个表中的多个列添加索引 通过在查询sql语句前加一句Explain可以分析索引效率, 有这样