如何构建高性能MySQL索引

介绍

上一篇文章中介绍了MySQL的索引基本原理以及常见的索引种类,这边文章的重点在于如何构建一个高性能的MySQL索引,从中你可以学到如何分析一个索引是不是好索引,以及如何构建一个好的索引。

索引误区

多列索引

一个索引的常见误区是为每一列创建一个索引,如下面创建的索引:

CREATE TABLE `t` (
  `c1` varchar(50) DEFAULT NULL,
  `c2` varchar(50) DEFAULT NULL,
  `c3` varchar(50) DEFAULT NULL,
  KEY `c1` (`c1`),
  KEY `c2` (`c2`),
  KEY `c3` (`c3`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8;

t表里有三列,并且为每列创建了一个索引。创建索引的人为了能够快速访问表中的任何一列,因此为每一列添加了一个单独的索引。在多个列上创建索引通常并不能很好的提高MySQL查询性能,虽然说MySQL 5.0之后引入了索引合并策略,可以将多个单列索引合并成一个索引,但这并不总是有效的。同时创建多个索引的时候还会增加数据插入的成本,在插入数据的时候需要同时维护多个索引的写入操作。

索引的计算

看下面这条sql语句:

select name from student where id + 1 = 5

即使我们在student表的id列上建立索引,上面的这条SQL语句也无法使用索引。SQL语句中索引字段不能是表达式的一部分,也不能是函数的参数。

索引的长度以及选择性

尽量不要在一个很长的列上使用索引,否则会导致索引占用的空间很大,同时在进行数据的插入和更新的时候意味着更慢的速度。因此使用uuid列作为索引并不是一个好的选择。从上一篇文章中我们可以知道,为了加快数据的访问索引是需要常驻内存的,假如说我们把64位uuid作为索引,那么随着表中数据量的增加索引的大小也在急剧增加。同时因为uuid并没有顺序性,因此在数据插入的时候都需要从根节点找到当前索引的插入位置,如果同一个节点中的索引大小达到上限,还会导致节点分裂,更加降低了插入速度。
    创建索引另外一个需要考虑的是索引的选择性,通常情况下我们会使用选择性高的列作为索引,但是也不一定一直是这样,下一节会介绍如何权衡索引的选择性。

创建高性能索引

选择正确的索引顺序

在选择索引的顺序的时候有一个原则:将索引选择性最高的列放在左侧,同时索引的顺序要与查询索引的顺序一致,并且要兼顾考虑排序和分组的需要。在一个多列B树多列中索引的顺序意味着索引首先按照最左侧的列进行排序,其次是第二列。所以无论是where语句还是order by语句都需要尽量满足这个顺序,这样才能更好的使用索引。

索引的选择性

列的选择性高的含义是通过这一列能够更多的过滤掉无用的数据,举个极端的例子,如果把自增id建成索引那么它的选择性是最高的,因为会把无用的数据都过滤掉,只会剩下一条有效数据。我们可以通过下面的方式来简单衡量某一个列的选择性:

select count(distinct columnA)/count(*) as selectivity from table

当上面的数据越大的时候意味着columnA的选择性越高。这种方式提供了一个衡量平均选择性的办法,但是也不一定是有效的,需要具体情况具体分析。

前缀索引

当遇到特别长的列,但又必须要建立索引的时候可以考虑建立前缀索引。前缀索引的含义是把某一列的前N个字符作为索引,创建前缀索引的方式如下:

alter table test add key(columnA(5));

上面这个语句就是把columnA的前5个字符创建为前缀索引。前缀索引是一种使索引更小、更快的有效办法。但是前缀所有有一个缺点:MySQL无法使用前缀索引来做order by和group by,也无法使用前缀索引做覆盖扫描。

聚簇索引和非聚簇索引

聚簇索引

聚簇索引代表一种数据的存储方式,表示同一个结构中保存了B-Tree索引和数据行。也就是说当建立聚簇索引的时候实际的数据行存放在索引的叶子节点上。这也决定了每个表只能有一个聚簇索引。
聚簇索引组织数据的方式如下图所示:

    从图中可以看到索引的叶子节点和数据行是存放在一起的,这样的好处是可以直接读取到数据行。在创建表的时候如果我们不显式指定聚簇索引,那么MySQL将会按照下面的逻辑来选择聚簇索引:首先会通过主键列来聚集数据,如果没有主键列那么会选择唯一的非空索引来替代。如果还没有这样的索引那么会隐式的创建一个主键列来作为聚簇索引。
    聚簇索引优点:
1、相关数据存放在一起,检索的时候降低IO的次数
2、数据访问更快
3、使用覆盖索引扫描的查询可以直接使用节点中的主键值
    在使用上面的优点的时候聚簇索引也有一定的缺点:
1、聚簇索引将数据聚集在一起限制了插入速度,插入速度比较依赖于主键的顺序
2、更新索引的时候代价会变高
3、二级索引的访问的时候需要查找两次

非聚簇索引

非聚簇索引通常被称为二级索引,与聚簇索引的不同在于,非聚簇索引的叶子节点存放的是数据的行指针或者是一个主键值。这样在查找数据的时候首先定位到叶子节点上的主键值(或者行指针),然后通过主键值再到聚簇索引中查找到对应的数据。从中我们可以看到对于非聚簇索引的查询需要走两次索引。下图是一个非聚簇索引:

    这个索引是InnoDB中的耳机索引,叶子节点中存储的是索引和主键。对于MyISAM叶子节点存储的是索引和行指针。

覆盖索引

如果一个索引包含或者说覆盖所有需要查询的字段的值,那么就称为覆盖索引。覆盖索引可以极大的提高查询的效率,如果我们的查询中只查询索引,而不用去回表那应该最好不过了。
    通常我们使用explain关键字来查看一个查询语句的执行计划,通过执行计划我们可以了解到查询的细节。如果是覆盖索引,我们会看到执行计划的Extra列里有”Using Index”的信息。在查询语句中一般我们希望是where条件中的语句尽量能被覆盖,并且顺序要跟索引的保持一致。还有一个需要注意的点是MySQL不能在索引中使用like操作,这样会导致后面的索引失效。

后记

本文主要讲了几种索引的原理以及如何构建一个高性能的索引。索引的优先是一个渐进的过程,随着数据量和查询语句的不同而发生变化,重要的是了解索引的原理,这样做出正确的优化。下一篇文章中将会介绍explain关键字,教你如何来看执行计划,以及如何判断一个查询语句是否需要优化的。

----------------------------------------------------------------

欢迎关注我的微信公众号:yunxi-talk,分享Java干货,进阶Java程序员必备。

?

原文地址:https://www.cnblogs.com/yunxitalk/p/10092177.html

时间: 2024-10-21 13:24:23

如何构建高性能MySQL索引的相关文章

构建高性能MYSQL集群系统总结

MYSQL高可用集群方案总结 一,常见的高可用MYSQL解决方案     高可用解决方案:     1,数据共享或同步数据,数据共享可通过SAN(Storage Area Network)来实现,数据同步可通过rsync软件或DRDB技术来实现 2,处理failover,宕机迁移至备份服务器,不影响业务运行     主从复制解决方案:      MySQL自身的高可用解决方案,数据同步方法采用的是MYSQL replication技术,MYSQL replication技术是日志复制的过程,一主

高性能MySql阅读笔记第五章--创建高性能的索引1

创建高性能的索引1 索引是存储引擎用于快速找到记录的一种数据结构,这是索引的基本功能. 索引对于良好的性能非常重要. 索引优化应该是对查询性能优化最有效的手段了,索引能够轻易将查询性能提高几个数量级,“最优”的索引有时比一个“好的”索引性能好两个数量级,创建一个真正“最优”的索引经常需要重写查询. 一.索引的类型 1.B树索引 当人们谈论索引的时候,如果没有特别指明类型,那么多半说的是B树索引,他使用B树数据结构存储数据. 可以使用B树索引的查询类型:全值匹配.匹配最左前缀.匹配列前缀.匹配范围

mysql索引类型以及如何创建高性能的索引

B-tree       ---默认的索引类型 存储引擎会以不同的方式使用B-tree索引,性能也不一样.myisam使用前缀压缩技术,是索引更小,通过数据的物理位置引用索引的行.InnoDB按照原数据格式进行存储,根据主键引用索引的行. 2.B+tree        --- 3.哈希索引        --只有memory引擎支持.无法排序. 4.R-tree 5.全文索引 mysql索引类型以及如何创建高性能的索引,布布扣,bubuko.com

MySQL索引优化-from 高性能MYSQL

Btree: 1. 尽量使用覆盖索引, 即三星索引 2. 多列索引如果带范围的话, 后续列不会作为筛选条件 3. 多列索引应选择过滤性更好的充当前缀索引 4. 尽量按主键顺序插入, 减少页分裂, 采用自增ID在高并发情况下, 可能造成明显征用, 或者更改innodb_autoinc_lock_mode配置. Hash: 1.只有精确匹配所有列的查询才有效, 对于每行数据, 引擎都会对所有索引列计算hash码 2. 只有memory才可以支持hash索引, innodb支持自适应hash索引, 但

《高性能MySQL》读书笔记之创建高性能的索引

索引是存储引擎用于快速找到记录的一种数据结构.索引优化是对查询性能优化的最有效手段.索引能够轻易将查询性能提高几个数量级.创建一个最优的索引经常需要重写查询.5.1 索引基础 在MySQL中,存储引擎首先在索引中找到对应值,然后根据匹配的索引记录找到对应的数据行. 索引可以包含一个或多个列的值.如果索引包含多个列,那么列的顺序也十分重要,因为MySQL只能高效地使用索引的最左前缀列. 5.1.1 索引的类型 索引有很多类型,可以为不同的场景提供更好的性能.在MySQL中,索引是在储存引擎层而不是

高性能MySQL中的三星索引

高性能MySQL中的三星索引 我对此提出了深深的疑问: 一星:相关的记录指的是什么??(相关这个词很深奥,“相关部门”是什么部门) 二星:如果建立了B-Tree(B+Tree)索引,数据就有序了.三星:索引的列包含了查询需要所有的列?根本不需要在where查询条件所有的列上建立索引! 我认为一星和二星的rows应该是columns,索引不关具体的数据行,只与查询的列有关.这样也与High Performance MySQL 后面提到的多列索引的观点相符合,特别是二星评估. 个人的观点: 评估一个

高性能MySQL——创建高性能的索引

索引是存储引擎用于快速查找记录的一种数据结构.索引优化是对查询性能优化最有效的手段. 1.索引的类型 在MySQL中,索引是在存储引擎层而不是服务器层实现的.所以没用统一的索引标准,不同存储引擎的索引工作方式并不相同. B-Tree索引 B-Tree索引即使用B-Tree数据结构来存储数据.B-Tree通常意味着所有值都是按顺序存储的,并且每个叶子页到根的距离相同.存储引擎已不同的方式来使用B-Tree索引,性能也各不相同. 可以使用B-Tree索引的查询类型--全键值.键值范围和键前缀查找.其

MySQL 索引知识整理(创建高性能的索引)

前言: 索引优化应该是对查询性能优化的最有效的手段了.索引能够轻易将查询性能提高几个数量级. // 固态硬盘驱动器有和机械硬盘启动器,有着完全不同的性能特性: 然而即使是固态硬盘,索引的原则依然成立, 只是那些需要尽量避免的糟糕索引对固态硬盘的影响没有机械硬盘那么糟糕. 现在很多公司都将数据库的优化工作都依托于 DBA 去完成,在我看来,这些都应该是程序员必备的技能, 有经验和没经验的程序员在数据库使用起来也有很大的差异,这些差异取决开发人员对索引内部的数据结构认识, 对所有负责的业务熟悉程度,

浅入深出ElasticSearch构建高性能搜索架构

浅入深出ElasticSearch构建高性能搜索架构  课程学习地址:http://www.xuetuwuyou.com/course/161 课程出自学途无忧网:http://www.xuetuwuyou.com 一.课程用到的软件 ElasticSearch5.0.0 Spring Tool Suite 3.8.2.RELEASE Maven3.0.5 Spring4 Netty4 Hadoop2.7.1 Kibana5.0 JDK1.8.0_111 二.课程目标 1.快速学习Elastic