Mysql性能优化:如何给字符串加索引?

原文:Mysql性能优化:如何给字符串加索引?

导读

  • 现代大部分的登录系统都支持邮箱、手机号码登录两种方式,那么如何在邮箱或者手机号码这个字符串上建立索引才能保证性能最佳呢?

  • 今天这篇文章就来探讨一下在Mysql中如何给一个字符串加索引才能达到性能最佳。
  • 本文首发于作者的微信公众号【码猿技术专栏】,原创不易,喜欢的朋友支持一下,谢谢!!!
  • 陈某将会从什么是前缀索引前缀索引和普通索引的比较如何建丽最佳性能的前缀索引前缀索引对覆盖索引的影响这几段来讲。

前缀索引

  • 顾名思义,对于列值较长,比如BLOBTEXTVARCHAR,就 "必须" 使用前缀索引,即将值的前一部分作为索引。因为索引的存储也是需要空间的,同样索引太长维护起来也比较困难。
  • 比如我们给User表中的邮箱添加前缀索引,如下:
   alter table user add index index1(email(7));
  • 上述语句将email的前7个字符作为索引。

前缀索引和普通索引比较

  • 我们分别将email的全部作为索引和前7个字符作为索引来看看在性能上有什么差异。建立索引的语句如下:
  alter table user add index index1(email);?  alter table user add index index2(email(7));
  • 假设有user表中有这样几条数据(id,name,email):(1,"陈某","[email protected]")(2,"张某","[email protected]")(3,"李某","[email protected]")(4,"王某","[email protected]")
  • 对应于index1和index2的索引树如下两张图:

  • 如果执行下面的查询语句,Mysql如何利用索引来查询呢?
  select * from user where email="[email protected]";

【1】普通索引的执行过程

  1. 从index1索引树找到满足索引值是[email protected]的这条记录,取得id=2的值;
  2. 到主键上查到主键值是id=2的行,判断email的值是正确的,将这行记录加入结果集;
  3. index1索引树上刚刚查到的位置的下一条记录,发现已经不满足[email protected]的条件了,循环结束。

这个过程中,只需要回主键索引取一次数据,所以系统认为只扫描了一行

【2】前缀索引的执行过程

  1. 从index2索引树找到满足索引值是chenmou的记录,找到的第一个是id=1;
  2. 到主键上查到主键值是id=1的行,判断出email的值不是[email protected],这行记录丢弃;
  3. 取index2上刚刚查到的位置的下一条记录,发现仍然是chenmou,取出id=2,再到ID索引上取整行然后判断,这次值对了,将这行记录加入结果集;
  4. 重复上一步,直到在idxe2上取到的值不是chenmou时,循环结束。

  在这个过程中,要回主键索引取4次数据,也就是扫描了4行。

  • 通过以上查询的对比,很容易就可以发现,使用前缀索引后,可能会导致查询语句读数据的次数变多。
  • 但是对于这个查询语句来说,如果建立的前缀索引的长度为13呢?那么满足chenmou1995的记录只有一个,这样就可以直接定位到id=2,此时不但空间缩小了,扫描的行数也减少了。
  • 于是结论就来了:使用前缀索引,只要定义好长度,就可以做到既节省空间,又不用额外增加太多的查询成本。
  • 那么如何建立正确的前缀索引才能达到最佳的性能呢?接着往下看................

如何建立最佳性能的前缀索引

  • 通过上述的比较,可以得出一个结论,建立前缀索引的区分度越高越好,意味着重复的键值越少
  • 那么如何统计区分度,其实很简单,只需要判断数据库中重复的次数即可。sql如下:
  select     count(distinct left(email,4))as L4,    count(distinct left(email,5))as L5,    count(distinct left(email,6))as L6,    count(distinct left(email,7))as L7,  from user;
  • 但是如果对于使用前缀区分度不太好的情况,比如,我们国家的身份证号,一共18位,其中前6位是地址码,所以同一个县的人的身份证号前6位一般会是相同的。 这时候如果对身份证号做长度为6的前缀索引的话,这个索引的区分度就非常低了。
  • 按照我们前面说的方法,可能你需要创建长度为12以上的前缀索引,才能够满足区分度要求。
  • 但是,索引选取的越长,占用的磁盘空间就越大,相同的数据页能放下的索引值就越少,搜索的效率也就会越低。
  • 那么,如果我们能够确定业务需求里面只有按照身份证进行等值查询的需求,还有没有别的处理方法呢?这种方法,既可以占用更小的空间,也能达到相同的查询效率。现在简单的介绍一种解决此种问题的方式,当然方法肯定不止一种,如下:

  倒序存储

  如果你存储身份证号的时候把它倒过来存,每次查询的时候,你可以这么写:

   select field_list from t where id_card = reverse(‘输入的身份证号‘);

  由于身份证号的最后6位没有地址码这样的重复逻辑,所以最后这6位很可能就提供了足够的区分度。当然了,实践中你不要忘记使用count(distinct)方法去做个验证。

前缀索引对覆盖索引的影响

  • 前缀索引会导致覆盖索引失效,查询语句如下:
  select id,name from user where email="[email protected]";
  • 由于使用了前缀索引,因此必须会回表验证查询到的时候正确,此处使用了覆盖索引也是无效的。
  • 也就是说,使用前缀索引就用不上覆盖索引对查询性能的优化了,这也是你在选择是否使用前缀索引时需要考虑的一个因素。

总结

  • 如何给字符串加索引是一个需要考量的问题,陈某在这里给出如下的建议:
  1. 如果字符串长度很短,建议直接用全部作为索引。
  2. 使用前缀索引注意分析区分度,区分度越高越好。
  3. 使用前缀索引需要考虑覆盖索引失效的问题。

原文地址:https://www.cnblogs.com/lonelyxmas/p/12630081.html

时间: 2024-09-28 21:04:16

Mysql性能优化:如何给字符串加索引?的相关文章

mysql性能优化注意事项以及索引

 mysql性能优化注意事项以及索引 一:数据库的优化方面 1商业需求的影响 比如说论坛里的帖子统计,并且实时更新 从功能上来说通过命令   select  count(*) from 表名 可以得到结果,如果论坛每秒产生产生成千上万条帖子,我们没有采用myisam存储而用的是innodb存储:就算再好的设备也不可能很快的查询出来. 注:在where和count(*)使用中myisam比innodb要快的多:因为myisam内置了一个计数器,count(*)可以直接从计数器当中读取,而innod

MySQL 性能优化---索引及优化

博主QQ:819594300 博客地址:http://zpf666.blog.51cto.com/ 有什么疑问的朋友可以联系博主,博主会帮你们解答,谢谢支持! 一.MySQL性能优化之-影响性能的因素 1.商业需求的影响 Myisam存储引擎内置一个计数器,count(*)时直接从计数器读取:而通过innodb存储引擎查找某个数据时,是必须扫描全表的,所以当执行对表的统计(即使用count(*)函数)时,myisam要比innodb要快的很多.所以一般在innodb上执行count(*)时一般要

Mysql5.7—mysql性能优化-索引、语句、配置(运维必备)

小生博客:http://xsboke.blog.51cto.com 小生 Q Q:1770058260 -------谢谢您的参考,如有疑问,欢迎交流 一. 数据库的类型 1) 第一代数据库: 基于层次模型与网状模型的数据库 层次型数据库比较经典的是IBM公司的IMS(InformationManagement System)数据库,层次型数据库提供了良好的完整性支持,模型简单,对具有一对多层关系的部们描述非常自然.直观,容易理解,比较适用于那些实体间联系是固定的且预先定义好的环境,其性能优于关

mysql性能优化-索引与优化

http://hongge.blog.51cto.com/ 一.MySQL性能优化之-影响性能的因素 1.商业需求的影响 不合理需求造成资源投入产出比过低,这里我们就用一个看上去很简单的功能来分析一下. 需求:一个论坛帖子总量的统计,附加要求:实时更新 从功能上来看非常容易实现,执行一条SELECT COUNT(*) from 表名 的Query 就可以得到结果.但是,如果我们采用不是MyISAM 存储引擎,而是使用的Innodb 的存储引擎,那么大家可以试想一下,如果存放帖子的表中已经有上千万

Mysql性能优化--索引优化 ( 索引不再是黑盒子 )

课程目录:│  ├─第1章 课程开篇│  │      1-课程开篇│  │      │  ├─第2章 InnoDB 行存储结构│  │      1-InnoDB行存储结构--本章大纲│  │      2-InnoDB行存储结构1--变长字段长度列表│  │      3-InnoDB行存储结构2--NULL值列表│  │      4-InnoDB行存储结构3--VARCHAR及行溢出│  │      │  ├─第3章 InnoDB 数据页结构│  │      1-InnoDB页存储

Mysql性能优化:什么是索引下推?

原文:Mysql性能优化:什么是索引下推? 导读 本文章始发于本人公众号:码猿技术专栏,原创不易,谢谢关注推荐. 索引下推(index condition pushdown )简称ICP,在Mysql5.6的版本上推出,用于优化查询. 在不使用ICP的情况下,在使用非主键索引(又叫普通索引或者二级索引)进行查询时,存储引擎通过索引检索到数据,然后返回给MySQL服务器,服务器然后判断数据是否符合条件 . 在使用ICP的情况下,如果存在某些被索引的列的判断条件时,MySQL服务器将这一部分判断条件

Mysql性能优化:为什么要用覆盖索引?

原文:Mysql性能优化:为什么要用覆盖索引? 导读 相信读者看过很多MYSQL索引优化的文章,其中有很多优化的方法,比如最佳左前缀,覆盖索引等方法,但是你真正理解为什么要使用最佳左前缀,为什么使用覆盖索引会提升查询的效率吗? 本篇文章将从MYSQL内部结构上讲一下为什么覆盖索引能够提升效率. InnoDB索引模型 在InnoDB中,表都是根据主键顺序以索引的形式存放的,这种存储方式的表称为索引组织表.又因为前面我们提到的,InnoDB使用了B+树索引模型,所以数据都是存储在B+树中的. 每一个

MySQL 性能优化的最佳20多条经验分享

今天,数据库的操作越来越成为整个应用的性能瓶颈了,这点对于Web应用尤其明显.关于数据库的性能,这并不只是DBA才需要担心的                    事,而这更是我们程序员需要去关注的事情. 当我们去设计数据库表结构,对操作数据库时(尤其是查表时的SQL语句),我们都需要注意数据操作的性能.这里,我们不会讲过多的SQL语                句的优化,而只是针对MySQL这一Web应用最多的数据库.希望下面的这些优化技巧对你有用. 1. 为查询缓存优化你的查询 大多数的M

MySQL性能优化的最佳20+条经验

http://www.pythonclub.org/mysql/optimize-20-tips 今天,数据库的操作越来越成为整个应用的性能瓶颈了,这点对于Web应用尤其明显.关于数据库的性能,这并不只是DBA才需要担心的事,而这更是我们程序员需要去关注的事情.当我们去设计数据库表结构,对操作数据库时(尤其是查表时的SQL语句),我们都需要注意数据操作的性能.这里,我们不会讲过多的SQL语句的优化,而只是针对MySQL这一Web应用最多的数据库.希望下面的这些优化技巧对你有用. 1. 为查询缓存