【一步一步学习mysql】Mysql索引底层数据结构与算法

索引是什么

索引是帮助MySQL高效获取数据的排好序的数据结构。
索引存储在文件里
补充知识：

磁盘存取原理：
* 寻道时间(速度慢，费时)
* 旋转时间(速度较快)

磁盘IO读取效率：
* 单次IO读取是N个页的大小，读取数据量大于N个页就需要分页读取。

索引的数据结构，推荐学习网站：https://www.cs.usfca.edu/~galles/visualization/Algorithms.html
- 二叉树
  - 有可能出现worst-case，如果输入序列已经排序，则时间复杂度为O(N)
- 红黑树
  - 解决了二叉树的缺点，但是在数据量大的情况下，会出现分层很深的情况，影响查询效率。
- hash
  - 查询效率很高，但是无法实现范围查询
- B树
  - 【特点】度(Degree)-节点的数据存储个数
  - 【特点】叶节点具有相同的深度
  - 【特点】叶节点的指针为空
  - 【特点】节点中的数据key从左到右递增排列
  - 【缺点】每个节点存储key+具体数据，而度涉及到IO读取，故如果度设计的很大就会影响IO读取效率。由于该限制，只能限制度的大小，使得深度无法控制。
- B+树
  - 非叶子节点不存储data，只存储key，可以增大度
  - 叶子节点不存储指针
  - 顺序访问指针，提高区间访问的性能
  - 优点
    - 一般使用磁盘I/O次数评价索引结构的优劣
    - 预读：磁盘一般会顺序向后读取一定长度的数据(页的整数倍)放入内存
    - 局部性原理：当一个数据被用到时，其附近的数据也通常会马上被使用
    - B+Tree节点的大小设为等于一个页，每次新建节点直接申请一个页的空间，这样就保证一个节点物理上也存储在一个页里，就实现了一个节点的载入只需一次I/O
    - B+Tree的度d一般会超过100，因此h非常小(一般为3到5之间)
    - 【最佳实践】使用自增的主键
      - a.自增型主键以利于插入性能的提高；
      - b.自增型主键设计(int,bigint)可以降低二级索引的空间，提升二级索引的内存命中率；
      - c.自增型的主键可以减小page的碎片，提升空间和内存的使用。

存储引擎

存储引擎是表的属性。
MyISAM是非聚集的索引实现
- 索引文件和数据文件是分开的两个文件
- 索引中叶子节点存储的是数据的地址
  - 主键索引和其他索引都是一样的，叶子节点指向的是数据文件中对应的地址
InnoDB是聚集的索引实现
- 索引和数据在同一个文件中
- 数据的存储是建立在主键索引结构中，叶子节点是具体的数据。故必须要有主键
- 其他索引的叶子节点是主键的值
- 【好处】一致性和节省存储空间

原文地址：https://www.cnblogs.com/xxxuwentao/p/9769942.html

时间： 2024-10-04 02:14:39

【一步一步学习mysql】Mysql索引底层数据结构与算法的相关文章

深入理解Mysql索引底层数据结构与算法

深入理解Mysql索引底层数据结构与算法 ----->之前很多人还问我一些关于mysql索引的底层和使用,我就特意写一篇文章跟大家一起分享一下我对mysql索引的理解,大家有更深入的理解可以下面留言. 1.索引的定义 MySQL官方对索引的定义为:索引(Index)是帮助MySQL高效获取数据的数据结构大家使用索引有没有想过这个问题?为什么索引能够帮助mysql高效获取数据?我一一给大家道来!在给大家讲之前,先更大家分享一些计算机基础知识,有助于理解我们都知道mysql数据是已文件的形式存储

数据结构学习笔记（1）-数据结构与算法

基本概念和术语 1.数据数据元素数据对象数据结构数据:在计算机科学中是指所有能输入到计算机中并被计算机程序处理的符号的总称. 数据元素:是数据的基本单位,在计算机程序中通常作为一个整体进行考虑和处理. 数据对象:是性质相同的数据元素的集合.是数据的一个子集. 数据结构:是相互之间存在一种或多种特定关系的数据元素的集合. 2.数据结构数据结构分为逻辑结构和物理结构 2.1逻辑结构逻辑结构表示数据之间的相互关系.通常有四种基本结构: 集合:结构中的数据元素除了同属于一种类型外,别

MySQL存储索引InnoDB数据结构为什么使用B+树，而不是其他树呢？

InnoDB的一棵B+树可以存放多少行数据? 答案:约2千万为什么是这么多? 因为这是可以算出来的,要搞清楚这个问题,先从InnoDB索引数据结构.数据组织方式说起. 计算机在存储数据的时候,有最小存储单元,这就好比现金的流通最小单位是一毛. 在计算机中,磁盘存储数据最小单元是扇区,一个扇区的大小是512字节,而文件系统(例如XFS/EXT4)的最小单元是块,一个块的大小是4k,而对于InnoDB存储引擎也有自己的最小储存单元,页(Page),一个页的大小是16K. 下面几张图可以理解最小存储

数据结构与算法C++描述学习笔记1、辗转相除——欧几里得算法

前面学了一个星期的C++,以前阅读C++代码有些困难,现在好一些了.做了一些NOI的题目,这也是一个长期的目标中的一环.做到动态规划的相关题目时发现很多问题思考不通透,所以开始系统学习.学习的第一本是<数据结构与算法C++描述>第三版,边学边做一些笔记.所以这些笔记中的代码有很多将会非常简单,甚至可能只有一个记录或者结论. 辗转相除法用来求两个整数的最大公约数,即能同时整除两个数的最大整数.程序如下: int gdc(int m,int n){ int rem; while(n!=0){ //

一步一步带你入门MySQL中的索引和锁（转）

出处: 一步一步带你入门MySQL中的索引和锁索引索引常见的几种类型索引常见的类型有哈希索引,有序数组索引,二叉树索引,跳表等等.本文主要探讨 MySQL 的默认存储引擎 InnoDB 的索引结构. InnoDB的索引结构在InnoDB中是通过一种多路搜索树——B+树实现索引结构的.在B+树中是只有叶子结点会存储数据,而且所有叶子结点会形成一个链表.而在InnoDB中维护的是一个双向链表. 你可能会有一个疑问,为什么使用 B+树而不使用二叉树或者B树? 首先,我们知道访问磁盘需要访问到

一步一步带你入门MySQL中的索引和锁

索引索引常见的几种类型索引常见的类型有哈希索引,有序数组索引,二叉树索引,跳表等等.本文主要探讨 MySQL 的默认存储引擎 InnoDB 的索引结构. InnoDB的索引结构在InnoDB中是通过一种多路搜索树——B+树实现索引结构的.在B+树中是只有叶子结点会存储数据,而且所有叶子结点会形成一个链表.而在InnoDB中维护的是一个双向链表. 你可能会有一个疑问,为什么使用 B+树而不使用二叉树或者B树? 首先,我们知道访问磁盘需要访问到指定块中,而访问指定块是需要盘片旋转和磁臂

一步一步跟我学习lucene（18）---lucene索引时join和查询时join使用示例

了解sql的朋友都知道,我们在查询的时候可以采用join查询,即对有一定关联关系的对象进行联合查询来对多维的数据进行整理.这个联合查询的方式挺方便的,跟我们现实生活中的托人找关系类似,我们想要完成一件事,先找自己的熟人,然后通过熟人在一次找到其他,最终通过这种手段找到想要联系到的人.有点类似于"世间万物皆有联系"的感觉. lucene的join包提供了索引时join和查询时join的功能: Index-time join 大意是索引时join提供了查询时join的支持,且IndexWr

Linux C编程学习5---参考《那年，一步一步学linux c》全系列（目录索引）

漫无目的的搜索一些东西,发现的一个很好的资源,所以就一定要收藏下来,方便自己学习Linux C 的时候也能够去参考一下别人的学习之路,来更加促进我的学习和思考说明转载请注明出处:谢谢:http://blog.csdn.net/muge0913/article/details/7342977 博主的邮箱是:[email protected] 文章中若有不对或某些功能更好的实现方法,请指出或直接留言. 该系列文章中所用结构数据代码均来自linux2.6.39. 1.那年,一步一步学linux c

一步一步跟我学习lucene（6）---lucene索引优化之多线程创建索引

这两天工作有点忙,博客更新不及时,请大家见谅: 前面了解到lucene在索引创建的时候一个IndexWriter获取到一个读写锁,这样势在lucene创建大数据量的索引的时候,执行效率低下的问题: 查看前面文档一步一步跟我学习lucene(5)---lucene的索引构建原理可以看出,lucene索引的建立,跟以下几点关联很大: 磁盘空间大小,这个直接影响索引的建立,甚至会造成索引写入提示完成,但是没有同步的问题: 索引合并策略的选择,这个类似于sql里边的批量操作,批量操作的数量过多直接影响执