10-看图理解数据结构与算法系列(B+树)

B+树

B+树是B树的一种变体，也属于平衡多路查找树，大体结构与B树相同，包含根节点、内部节点和叶子节点。多用于数据库和操作系统的文件系统中，由于B+树内部节点不保存数据，所以能在内存中存放更多索引，增加缓存命中率。另外因为叶子节点相连遍历操作很方便，而且数据也具有顺序性，便于区间查找。

B+树特点

B+树可以定义一个m值作为预定范围，即m路(阶)B+树。
根节点可能是叶子节点，也可能是包含两个或两个以上子节点的节点。
内部节点如果拥有k个关键字则有k+1个子节点。
非叶子节点不保存数据，只保存关键字用作索引，所有数据都保存在叶子节点中。
非叶子节点有若干子树指针，如果非叶子节点关键字为k1,k2,...kn，其中n=m-1，那么第一个子树关键字判断条件为小于k1，第二个为大于等于k1而小于k2，以此类推，最后一个为大于等于kn，总共可以划分出m个区间，即可以有m个分支。（判断条件其实没有严格的要求，只要能实现对B+树的数据进行定位划分即可，有些实现使用了m个关键字来划分区间，也是可以的）
所有叶子节点通过指针链相连，且叶子节点本身按关键字的大小从小到大顺序排列。
自然插入而不进行删除操作时，叶子节点项的个数范围为[floor(m/2),m-1]，内部节点项的个数范围为[ceil(m/2)-1,m-1]。
另外通常B+树有两个头指针，一个指向根节点一个指向关键字最小的叶子节点。
在进行删除操作时，涉及到索引节点填充因子和叶子节点填充因子，一般可设叶子节点和索引节点的填充因子都不少于50%。

以下是一棵4阶B+树，

插入操作

假设现在构建一棵四阶B+树，开始插入“A”，直接作为根节点，

插入“B”，大于“A”，放右边，

插入“C”，按顺序排到最后，

继续插入“D”，直接添加的结果如下图，此时超过了节点可以存放容量，对于四阶B+树每个节点最多存放3个项，此时需要执行分裂操作，

分裂操作为，先选取待分裂节点中间位置的项，这里选“C”，然后将“C”项放到父节点中，因为这里还没有父节点，那么直接创建一个新的父节点存放“C”，而原来小于“C”的那些项作为左子树，原来大于等于“C”的那些项作为右子树。这里注意下非叶子节点存放的都是关键字，用作索引的，所以父节点存放的“C”项不包括数据，数据仍然存放在右子树。此外，还需要添加一个指针，由左子树指向右子树。

继续插入“M”，“M”大于“C”，往右子节点，

分别与“C”“D”比较，大于它们，放到最右边，

插入“L”，“L”大于“B”，往右子树，

“L”逐一与节点内项的值比较，根据大小放到指定位置，此时触发分裂操作，

选取待分裂节点中间位置的项“L”，然后将“L”项放到父节点中，按大小顺序将“L”放到指定位置，而原来小于“L”的那些项作为左子树，原来大于等于“L”的那些项作为右子树。父节点存放的“L”项不包括数据，数据仍然存放在右子树。此外，还需要在左子树中添加一个指向右子树的指针。

继续插入“K”，从根节点开始查找，逐一比较关键字，“K”大于“C”而小于“L”，往第二个分支，

在子节点中逐一比较，“K”最终落在最右边，

继续插入“J”，从根节点开始查找，逐一比较关键字，“J”大于“C”而小于“L”，往第二个分支，

在子节点中找到“J”的相应位置，此时超过了节点的容量，需要进行分裂操作，

选取待分裂节点中间位置的项“J”，然后将“J”项放到父节点中，按大小顺序将“J”放到指定位置，而原来小于“J”的那些项作为左子树，原来大于等于“J”的那些项作为右子树。父节点存放的“J”项不包括数据，数据仍然存放在右子树。此外，还需要在左子树中添加一个指向右子树的指针。

继续插入“I”，从根节点开始查找，逐一比较关键字，“I”大于“C”而小于“J”“L”，往第二个分支，

逐一比较找到“I”的插入位置，

继续插入“H”，从根节点开始查找，逐一比较关键字，“H”大于“C”而小于“J”“L”，往第二个分支，

“H”逐一与节点内的值比较，根据大小放到指定位置，此时触发分裂操作，

选取待分裂节点中间位置的项“H”，然后将“H”项放到父节点中，按大小顺序将“H”放到指定位置，而原来小于“H”的那些项作为左子树，原来大于等于“H”的那些项作为右子树。父节点存放的“H”项不包括数据，数据仍然存放在右子树。此外，还需要在左子树中添加一个指向右子树的指针。

但此时父节点超出了容量，父节点需要继续分裂操作，

选取待分裂节点中间位置的项“J”，然后将“J”项放到父节点中，但还不存在父节点，需要创建一个作为父节点。原来小于“J”的那些项作为左子树，原来大于“J”的那些项作为右子树。这是非叶子节点的分裂，操作对象都是用作索引的关键字，不必考虑数据存放问题。

插入“G”，从根节点开始查找，“G”小于“J”，往第一个分支，

逐一比较节点内项的值，“G”大于“C”小于“H”，往第二个分支，

逐一比较节点内项的值，找到“G”的位置并插入，

插入“F”，从根节点开始查找，“F”小于“J”，往第一个分支，

逐一比较节点内项的值，“F”大于“C”小于“H”，往第二个分支，

逐一比较节点内项的值，找到“F”的位置并插入，此时触发分裂操作，

选取待分裂节点中间位置的项“F”，然后将“F”项放到父节点中，按大小顺序将“F”放到指定位置，而原来小于“F”的那些项作为左子树，原来大于等于“F”的那些项作为右子树。父节点存放的“F”项不包括数据，数据仍然存放在右子树。此外，还需要在左子树中添加一个指向右子树的指针。

最后插入“E”，从根节点开始查找，“E”小于“J”，往第一个分支，

逐一比较节点内项的值，“E”大于“C”小于“F”，往第二个分支，

逐一比较节点内项的值，找打“E”适当的位置并插入。

从上面插入操作可以总结，插入主要就是涉及到分裂操作，而且要注意到非节点只保存了关键字作为索引，而数据都保存在叶子节点上，此外还需要使用指针将叶子节点连接起来。最终我们可以看到叶子节点的项按从小到大排列，因为有了指针使得可以很方便遍历数据。

查找操作

对B+树的查找与B树的查找差不多，从根节点开始查找，通过比较项的值找到对应的分支，然后继续往子树上查找。

比如查找“H”，“H”小于“J”，往第一个分支，

逐一比较节点中的项，发现应该往第四个分支，

逐一比较，找到“H”。

遍历操作

遍历操作首先是要先找到树最左边的叶子节点，然后就可以通过指针完成整棵树的遍历了。

从根节点开始，一直往第一个分支走，

继续往第一个分支走，

发现已经到叶子节点了，这就是要找的遍历的开端，

第一个叶子节点有两个项，接着根据指针跳到第二个叶子节点，

第二个节点有三个项，根据指针继续往下一个节点，

该节点有两个项，根据指针继续往下一个节点，

不断根据指针往下，

往下，

完成整棵树的遍历。

作者：超人汪小建
链接：https://juejin.im/post/5b9073f9f265da0acd209624
来源：掘金
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

原文地址：https://www.cnblogs.com/Knight-of-Dulcinea/p/9946074.html

时间： 2024-11-03 09:38:25

10-看图理解数据结构与算法系列(B+树)的相关文章

09-看图理解数据结构与算法系列(B树)

B树 B树即平衡查找树,一般理解为平衡多路查找树,也称为B-树.B_树.是一种自平衡树状数据结构,能对存储的数据进行O(log n)的时间复杂度进行查找.插入和删除.B树一般较多用在存储系统上,比如数据库或文件系统. B树特点 B树可以定义一个m值作为预定范围,即m路(阶)B树. 每个节点最多有m个孩子. 每个节点至少有ceil(m/2)个孩子,除了根节点和叶子节点外. 对于根节点,子树个数范围为[2,m],节点内值的个数范围为[1,m-1]. 对于非根节点,节点内的值个数范围为[ceil(m/

08-看图理解数据结构与算法系列(2-3树)

2-3树 2-3树,是最简单的B-树,其中2.3主要体现在每个非叶子节点都有2个或3个子节点,B-树即是平衡树,平衡树是为了解决不平衡树查询效率问题,常见的二叉平衡书有AVL树,它虽然提高了查询效率,但是插入操作效率不高,因为它需要再每次插入节点后维护树的平衡,而为了解决查询效率同时有兼顾插入效率,于是提出了2-3树. 2-3树特点 2-3树是一棵平衡树,但不是二叉平衡树. 对于高度相同的2-3树和二叉树,2-3树的节点数要大于满二叉树,因为有些节点可能有三个子节点. 2-3树可以是一棵空树.

13-看图理解数据结构与算法系列(Trie树)

Trie树 Trie树,是一种搜索树,也称字典树或单词查找树,此外也称前缀树,因为某节点的后代存在共同的前缀.它的key都为字符串,能做到高效查询和插入,时间复杂度为O(k),k为字符串长度,缺点是如果大量字符串没有共同前缀时很耗内存.它的核心思想就是减少没必要的字符比较,使查询高效率,即用空间换时间,再利用共同前缀来提高查询效率. Trie树特点根节点不包含字符,其他节点每个节点只包含一个字符. 从根节点到某一节点经过路径的字符连起来即为该节点对应的字符串. 每个节点的所有子节点字符都不相同

12-看图理解数据结构与算法系列(冒泡排序)

冒泡排序冒泡排序是一种很简单的排序算法,主要思想就是不断走访待排序序列,每次只比较两个相邻元素,如果这俩元素顺序不符合要求则对换它们,不断重复知道没有相邻元素需要对换.在不断走访比较过程中,越大的元素经过交换会慢慢走到数列顶端,所以看起来它就像气泡一样不断往上冒,于是就叫冒泡. 排序要点比较相邻两个元素,如果前一元素比后一元素大则对换它们的位置. 从头开始对每一对相邻元素都执行1的对比工作,直至结尾最后一对,执行完一轮后,该轮最大的元素被换置到最后. 针对所有元素执行若干轮1和2操作,每次经

14-看图理解数据结构与算法系列(希尔排序)

希尔排序希尔排序是希尔(Donald Shell)提出的一种排序方法,也属于插入排序,但是简单插入排序的高效版本,也称为缩小增量排序.基本思想是将待排序元素进行增量分组,然后在分组组内进行插入排序,随着增量的减少,每个分组组内的元素越来越多,直至增量减至1时,所有元素都分到同一个组内,执行插入排序后完成整个排序操作. 排序要点选取一个小于所有待排序元素数量n的整数作为第一个增量,对全部元素进行分组,分组的依据是所有距离为的倍数的记录分到同一组. 对分好的组,在组内进行直接插入排序. 接着取第

一句话+一张图理解——数据结构与算法

https://blog.csdn.net/qq_33414271/article/details/80366014 原文地址:https://www.cnblogs.com/springcloud/p/9065160.html

数据结构与算法系列七（队列）

1.引子 1.1.为什么要学习数据结构与算法? 有人说,数据结构与算法,计算机网络,与操作系统都一样,脱离日常开发,除了面试这辈子可能都用不到呀! 有人说,我是做业务开发的,只要熟练API,熟练框架,熟练各种中间件,写的代码不也能“飞”起来吗? 于是问题来了:为什么还要学习数据结构与算法呢? #理由一: 面试的时候,千万不要被数据结构与算法拖了后腿 #理由二: 你真的愿意做一辈子CRUD Boy吗 #理由三: 不想写出开源框架,中间件的工程师,不是好厨子 1.2.如何系统化学习数据结构与算法?

数据结构与算法系列四（单链表）

1.引子 1.1.为什么要学习数据结构与算法? 有人说,数据结构与算法,计算机网络,与操作系统都一样,脱离日常开发,除了面试这辈子可能都用不到呀! 有人说,我是做业务开发的,只要熟练API,熟练框架,熟练各种中间件,写的代码不也能“飞”起来吗? 于是问题来了:为什么还要学习数据结构与算法呢? #理由一: 面试的时候,千万不要被数据结构与算法拖了后腿 #理由二: 你真的愿意做一辈子CRUD Boy吗 #理由三: 不想写出开源框架,中间件的工程师,不是好厨子 1.2.如何系统化学习数据结构与算法?

数据结构与算法系列十三（选择排序）

1.引子 1.1.为什么要学习数据结构与算法? 有人说,数据结构与算法,计算机网络,与操作系统都一样,脱离日常开发,除了面试这辈子可能都用不到呀! 有人说,我是做业务开发的,只要熟练API,熟练框架,熟练各种中间件,写的代码不也能“飞”起来吗? 于是问题来了:为什么还要学习数据结构与算法呢? #理由一: 面试的时候,千万不要被数据结构与算法拖了后腿 #理由二: 你真的愿意做一辈子CRUD Boy吗 #理由三: 不想写出开源框架,中间件的工程师,不是好厨子 1.2.如何系统化学习数据结构与算法?

猜你喜欢

百度现在也成了流氓（流氓软件）的胚子样，吐口恶气让大家都来认识它！

这两天在找蓝牙驱动的时候发现了一个可以直接安装的下载组件.安装以后发现自带了百度杀毒等等"附加组件",由于我电脑里面已经有杀毒软件,为了不让电脑太慢,我就用软件卸载了它们.可是过不 ...

P1395 会议（求树的重心）

P1395 会议题目描述有一个村庄居住着n个村民,有n-1条路径使得这n个村民的家联通,每条路径的长度都为1.现在村长希望在某个村民家中召开一场会议,村长希望所有村民到会议地点的距离之和最小,那么 ...

模拟登录学校邮箱

要模拟登录的post地址(url),可以先登录一边要登录的网站,用wireshark抓取信息,filter过滤条件为http.request.method==POST. 也可以在Chrome浏览器打开 ...

sudo: /etc/sudoers 的模式为 0551,应为 0440

环境:Ubuntu 12.04.4 LTS 32bit 本想修改/etc/sudoers文件,取消sudo权限的密码.但是因为sudoers文件无‘w’(写)的权限,然后用命令加写权限的时候加错了,加 ...

【C/C++多线程编程之九】pthread读写锁

多线程编程之读写锁 Pthread是 POSIX threads 的简称,是POSIX的线程标准. pthread读写锁把对共享资源的访问者分为读者和写者,读者只对共享资源进行读访问,写者只对共享资 ...

CSS中块级格式化上下文（BFC）的特性与应用

一.何为BFC 块级格式化上下文(Block Formatting Context)是网页CSS视觉渲染的一部分,并用于决定盒子的布局.在定位体系中属于常规流(Normal Flow)(另外两种定位体 ...

如何实现鼠标悬停图片放大的效果。

在网页上我们经常看到鼠标悬停在一个图片上,这张图片会慢慢的放大,感觉是像放大镜放大的效果,当鼠标移开的时候,图片有恢复原来的样子,今天就实现这种效果. 实现原理以思路: 1,首先这是一张图片在悬停时放 ...

mysql kernel: nf_conntrack version 0.5.0

今天要检查mysql数据库时messages日志中有大量mysql kernel: nf_conntrack version 0.5.0连接信息,现在将解决方法记录下来,希望能帮助需要的人,注:操作系 ...

各种排序算法

1.冒泡排序,时间复杂度O(n^2) void bubble_sort(int arr[], int num) { int i,j,t; for(j=0;j<num-1;j++) //共进行nu ...

安卓培训（java篇）第十天—容器（下）

nextInt().nextLine().next()三者之间的区别: nextIne():以焦点来进行输入值:nextLine():换行输入,焦点变化:next():不换行输入,焦点不变. 如果ne ...

ceph简单用户管理

一,列出所有用户: ceph auth list installed auth entries: mds.ceph-node1 key: AQB/+I5ZFdcwERAAg0eP7SyDg84DZUl ...

centos 服务器编译安装apache+php

1.检查服务器中是否自带httpd,如果/etc/httpd/httpd.conf,说明系统自带httpd服务,需要卸载或关闭服务,不要让他影响到本次安装的服务启动可以用 service httpd ...

运维硬件总结

计算机硬件知识总结详解服务器:1U是4.45cm,宽 29cm 19英寸,服务器的厚度用U来表示互联网公司用的最多的品牌是戴尔.IBM.惠普服务器电脑组成:主板.CPU.内存.磁盘.显卡.声卡等 ...

计算圆周率的C程序

这是很早以前用C语言写的一个计算圆周率的程序, 算法是用泰勒公式计算反正切值.在命令行不跟参数执行该程序则使用Gauss公式计算前1000位圆周率的值,如果带一个命令行参数,则该值为要计算的位数.如 ...

javascript之DOM对象

document方法 document.createElement(Tag) :创建一个html标签对象 document.getElementById(ID) :获得指定ID值的对象 documen ...

zendframework和smarty整合

一. smarty引用把这段代码添加到zendframework根目录下的index.php里, include './library/Smarty/libs/Smarty.clas ...

microtime()等时间函数函数简记

microtime()获取当前的unix时间戳和微妙数,如果带上参数(true),会返回一个浮点数,在支持gettimeofday()函数的系统上可用. 举个栗子: 获取当前时间戳可以使用如下方式: ...

JS-tips

1.addEventListener(String,Function,boolean) 当boolean为true就在捕获过程中执行,反之就在冒泡过程中执行处理函数.

【伪多项式时间】

Stack Overflow上有人关于这个概念(Pseudo-polynomial time)进行过详细解释. 原答案: algorithm - What is pseudopolynomial ti ...

svn提交时出现很多乱文件怎么解决

在我们开发项目中的时候经常使用到svn,有时候我们commit的时候回出现很多无用的文件,这些文件就是未版本化的文件,怎么解决这些乱文件的问题呢? svn commit提交的时候有个"sho ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.024 s.