计算机程序的思维逻辑 (45) - 神奇的堆

前面几节介绍了Java中的基本容器类,每个容器类背后都有一种数据结构,ArrayList是动态数组,LinkedList是链表,HashMap/HashSet是哈希表,TreeMap/TreeSet是红黑树,本节介绍另一种数据结构 - 堆。

引入堆

之前我们提到过堆,那里,堆指的是内存中的区域,保存动态分配的对象,与栈相对应。这里的堆是一种数据结构,与内存区域和分配无关。

堆是什么结构呢?这个我们待会再细看。我们先来说明,堆有什么用?为什么要介绍它?

堆可以非常高效方便的解决很多问题,比如说:

  • 优先级队列,我们之前介绍的队列实现类LinkedList是按添加顺序排队的,但现实中,经常需要按优先级来,每次都应该处理当前队列中优先级最高的,高优先级的,即使来得晚,也应该被优先处理。
  • 求前K个最大的元素,元素个数不确定,数据量可能很大,甚至源源不断到来,但需要知道到目前为止的最大的前K个元素。这个问题的变体有:求前K个最小的元素,求第K个最大的,求第K个最小的。
  • 求中值元素,中值不是平均值,而是排序后中间那个元素的值,同样,数据量可能很大,甚至源源不断到来。

堆还可以实现排序,称之为堆排序,不过有比它更好的排序算法,所以,我们就不介绍其在排序中的应用了。

Java容器中有一个类PriorityQueue,就表示优先级队列,它实现了堆,下节我们会详细介绍。关于后面两个问题,它们是如何使用堆高效解决的,我们会在接下来的几节中用代码实现并详细解释。

说了这么多好处,堆到底是什么呢?

堆的概念

完全二叉树

堆首先是一颗二叉树,但它是完全二叉树。什么是完全二叉树呢?我们先来看另一个相似的概念,满二叉树。

满二叉树是指,除了最后一层外,每个节点都有两个孩子,而最后一层都是叶子节点,都没有孩子。比如,下图两个二叉树都是满二叉树。


满二叉树一定是完全二叉树,但完全二叉树不要求最后一层是满的,但如果不满,则要求所有节点必须集中在最左边,从左到右是连续的,中间不能有空的。比如说,下面几个二叉树都是完全二叉树:


而下面的这几个则都不是完全二叉树:

编号与数组存储

在完全二叉树中,可以给每个节点一个编号,编号从1开始连续递增,从上到下,从左到右,如下图所示:


完全二叉树有一个重要的特点,给定任意一个节点,可以根据其编号直接快速计算出其父节点和孩子节点编号,如果编号为i,则父节点编号即为i/2,左孩子编号即为2*i,右孩子编号即为2*i+1。比如,对于5号节点,父节点为5/2即2,左孩子为2*5即10,右孩子为2*5+1即11。

这个特点为什么重要呢?它使得逻辑概念上的二叉树可以方便的存储到数组中,数组中的元素索引就对应节点的编号,树中的父子关系通过其索引关系隐含维持,不需要单独保持。比如说,上图中的逻辑二叉树,保存到数组中,其结构为:

父子关系是隐含的,比如对于第5个元素13,其父节点就是第2个元素15,左孩子就是第10个元素7,右孩子就是第11个元素4。

这种存储二叉树的方法与之前介绍的TreeMap是不一样的,在TreeMap中,有一个单独的内部类Entry,Entry有三个引用,分别指向父节点、左孩子、右孩子。

使用数组存储,优点是很明显的,节省空间,访问效率高。

最大堆/最小堆

堆逻辑概念上是一颗完全二叉树,而物理存储上使用数组,除了这两点,堆还有一定的顺序要求。

之前介绍过排序二叉树,排序二叉树是完全有序的,每个节点都有确定的前驱和后继,而且不能有重复元素。

与排序二叉树不同,在堆中,可以有重复元素,元素间不是完全有序的,但对于父子节点之间,有一定的顺序要求,根据顺序分为两种堆,一种是最大堆,另一种是最小堆。

最大堆是指,每个节点都不大于其父节点。这样,对每个父节点,一定不小于其所有孩子节点,而根节点就是所有节点中最大的,对每个子树,子树的根也是子树所有节点中最大的。

最小堆与最大堆正好相反,每个节点都不小于其父节点。这样,对每个父节点,一定不大于其所有孩子节点,而根节点就是所有节点中最小的,对每个子树,子树的根也是子树所有节点中最小的。

我们看下图示:


堆概念总结

总结来说,逻辑概念上,堆是完全二叉树,父子节点间有特定顺序,分为最大堆和最小堆,最大堆根是最大的,最小堆根是最小的,堆使用数组进行物理存储。

这个数据结构为什么就可以高效的解决之前我们说的问题呢?在回答之前,我们需要先看下,如何在堆上进行数据的基本操作,在操作过程中,如何保持堆的属性不变。

堆的算法

下面,我们来看下,如何在堆上进行数据的基本操作。最大堆和最小堆的算法是类似的,我们以最小堆来说明。先来看如何添加元素。

添加元素

如果堆为空,则直接添加一个根就行了。我们假定已经有一个堆了,要在其中添加元素。基本步骤为:

  1. 添加元素到最后位置。
  2. 与父节点比较,如果大于等于父节点,则满足堆的性质,结束,否则与父节点进行交换,然后再与父节点比较和交换,直到父节点为空或者大于等于父节点。

我们来看个例子。下面是初始结构:


添加元素3,第一步后,结构变为:


3小于父节点8,不满足最小堆的性质,所以与父节点交换,会变为:


交换后,3还是小于父节点6,所以继续交换,会变为:


交换后,3还是小于父节点,也是根节点4,继续交换,变为:


这时,调整就结束了,树保持了堆的性质。

从以上过程可以看出,添加一个元素,需要比较和交换的次数最多为树的高度,即log2(N),N为节点数。

这种自低向上比较、交换,使得树重新满足堆的性质的过程,我们称之为siftup。

从头部删除元素

在队列中,一般是从头部删除元素,Java中用堆实现优先级队列,我们来看下如何在堆中删除头部,其基本步骤为:

  1. 用最后一个元素替换头部元素,并删掉最后一个元素。
  2. 将新的头部与两个孩子节点中较小的比较,如果不大于该孩子节点,则满足堆的性质,结束,否则与较小的孩子进行交换,交换后,再与较小的孩子比较和交换,一直到没有孩子,或者不大于两个孩子节点。这个过程我们般称为siftdown。

我们来看个例子。下面是初始结构:


执行第一步,用最后元素替换头部,会变为:


现在根节点16小于孩子节点,与更小的孩子节点6进行替换,结构会变为:


16还是小于孩子节点,与更小的孩子8进行交换,结构会变为:


此时,就满足堆的性质了。

从中间删除元素

那如果需要从中间删除某个节点呢?与从头部删除一样,都是先用最后一个元素替换待删元素。不过替换后,有两种情况,如果该元素大于某孩子节点,则需向下调整(siftdown),否则,如果小于父节点,则需向上调整(siftup)。

我们来看个例子,删除值为21的节点,第一步如下图所示:


替换后,6没有子节点,小于父节点12,执行向上调整siftup过程,最后结果为:


我们再来看个例子,删除值为9的节点,第一步如下图所示:


交换后,11小于右孩子10,所以执行siftdown过程,执行结束后为:


构建初始堆

给定一个无序数组,如何使之成为一个最小堆呢?将普通无序数组变为堆的过程我们称之为heapify。

基本思路是,从最后一个非叶子节点开始,一直往前直到根,对每个节点,执行向下调整siftdown。换句话说,是自底向上,先使每个最小子树为堆,然后每对左右子树和其父节点合并,调整为更大的堆,因为每个子树已经为堆,所以调整就是对父节点执行siftdown,就这样一直合并调整直到根。这个算法的伪代码是:

void heapify() {
    for (int i=size/2; i >= 1; i--)
        siftdown(i);
}

size表示节点个数, 节点编号从1开始,size/2表示第一个非叶节点的编号。

这个构建的时间效率为O(N),N为节点个数,具体就不证明了。

查找和遍历

在堆中进行查找没有特殊的算法,就是从数组的头找到尾,效率为O(N)。

在堆中进行遍历也是类似的,堆就是数组,堆的遍历就是数组的遍历,第一个元素是最大值或最小值,但后面的元素没有特定的顺序。

需要说明的是,如果是逐个从头部删除元素,堆可以确保输出是有序的。

算法小结

以上就是堆操作的主要算法:

  • 在添加和删除元素时,有两个关键的过程以保持堆的性质,一个是向上调整(siftup),另一个是向下调整(siftdown),它们的效率都为O(log2(N))。由无序数组构建堆的过程heapify是一个自底向上循环的过程,效率为O(N)。
  • 查找和遍历就是对数组的查找和遍历,效率为O(N)。

小结

本节介绍了堆这一数据结构的基本概念和算法。

堆是一种比较神奇的数据结构,概念上是树,存储为数组,父子有特殊顺序,根是最大值/最小值,构建/添加/删除效率都很高,可以高效解决很多问题。

但在Java中,堆到底是如何实现的呢?本文开头提到的那些问题,用堆到底如何解决呢?让我们在接下来的几节中继续探索。

---------------

未完待续,查看最新文章,敬请关注微信公众号“老马说编程”(扫描下方二维码),从入门到高级,深入浅出,老马和你一起探索Java编程及计算机技术的本质。用心原创,保留所有版权。

时间: 2024-10-15 06:20:17

计算机程序的思维逻辑 (45) - 神奇的堆的相关文章

计算机程序的思维逻辑 (62) - 神奇的序列化

在前面几节,我们在将对象保存到文件时,使用的是DataOutputStream,从文件读入对象时,使用的是DataInputStream, 使用它们,需要逐个处理对象中的每个字段,我们提到,这种方式比较啰嗦,Java中有一种更为简单的机制,那就是序列化. 简单来说,序列化就是将对象转化为字节流,反序列化就是将字节流转化为对象.在Java中,具体如何来使用呢?它是如何实现的?有什么优缺点?本节就来探讨这些问题,我们先从它的基本用法谈起. 基本用法 Serializable 要让一个类支持序列化,只

计算机程序的思维逻辑 (22) - 代码的组织机制

使用任何语言进行编程都有一个类似的问题,那就是如何组织代码,具体来说,如何避免命名冲突?如何合理组织各种源文件?如何使用第三方库?各种代码和依赖库如何编译连接为一个完整的程序? 本节就来讨论Java中的解决机制,具体包括包.jar包.程序的编译与连接,从包开始. 包的概念 使用任何语言进行编程都有一个相同的问题,就是命名冲突,程序一般不全是一个人写的,会调用系统提供的代码.第三方库中的代码.项目中其他人写的代码等,不同的人就不同的目的可能定义同样的类名/接口名,Java中解决这个问题的方法就是包

计算机程序的思维逻辑 (23) - 枚举的本质

前面系列,我们介绍了Java中表示和操作数据的基本数据类型.类和接口,本节探讨Java中的枚举类型. 所谓枚举,是一种特殊的数据,它的取值是有限的,可以枚举出来的,比如说一年就是有四季.一周有七天,虽然使用类也可以处理这种数据,但枚举类型更为简洁.安全和方便. 下面我们就来介绍枚举的使用,同时介绍其实现原理. 基础 基本用法 定义和使用基本的枚举是比较简单的,我们来看个例子,为表示衣服的尺寸,我们定义一个枚举类型Size,包括三个尺寸,小/中/大,代码如下: public enum Size {

计算机程序的思维逻辑 (21) - 内部类的本质

内部类 之前我们所说的类都对应于一个独立的Java源文件,但一个类还可以放在另一个类的内部,称之为内部类,相对而言,包含它的类称之为外部类. 为什么要放到别的类内部呢?一般而言,内部类与包含它的外部类有比较密切的关系,而与其他类关系不大,定义在类内部,可以实现对外部完全隐藏,可以有更好的封装性,代码实现上也往往更为简洁. 不过,内部类只是Java编译器的概念,对于Java虚拟机而言,它是不知道内部类这回事的, 每个内部类最后都会被编译为一个独立的类,生成一个独立的字节码文件. 也就是说,每个内部

计算机程序的思维逻辑 (29) - 剖析String

上节介绍了单个字符的封装类Character,本节介绍字符串类.字符串操作大概是计算机程序中最常见的操作了,Java中表示字符串的类是String,本节就来详细介绍String. 字符串的基本使用是比较简单直接的,我们来看下. 基本用法 可以通过常量定义String变量 String name = "老马说编程"; 也可以通过new创建String String name = new String("老马说编程"); String可以直接使用+和+=运算符,如: S

计算机程序的思维逻辑 (28) - 剖析包装类 (下)

本节探讨Character类,它的基本用法我们在包装类第一节已经介绍了,本节不再赘述.Character类除了封装了一个char外,还有什么可介绍的呢?它有很多静态方法,封装了Unicode字符级别的各种操作,是Java文本处理的基础,注意不是char级别,Unicode字符并不等同于char,本节详细介绍这些方法以及相关的Unicode知识. 在介绍这些方法之前,我们需要回顾一下字符在Java中的表示方法,我们在第六节.第七节.第八节介绍过编码.Unicode.char等知识,我们先简要回顾一

计算机程序的思维逻辑 (25) - 异常 (下)

上节我们介绍了异常的基本概念和异常类,本节我们进一步介绍对异常的处理,我们先来看Java语言对异常处理的支持,然后探讨在实际中到底应该如何处理异常. 异常处理 catch匹配 上节简单介绍了使用try/catch捕获异常,其中catch只有一条,其实,catch还可以有多条,每条对应一个异常类型,比如说: try{ //可能触发异常的代码 }catch(NumberFormatException e){ System.out.println("not valid number"); }

计算机程序的思维逻辑 (47) - 堆和PriorityQueue的应用

45节介绍了堆的概念和算法,上节介绍了Java中堆的实现类PriorityQueue,PriorityQueue除了用作优先级队列,还可以用来解决一些别的问题,45节提到了如下两个应用: 求前K个最大的元素,元素个数不确定,数据量可能很大,甚至源源不断到来,但需要知道到目前为止的最大的前K个元素.这个问题的变体有:求前K个最小的元素,求第K个最大的,求第K个最小的. 求中值元素,中值不是平均值,而是排序后中间那个元素的值,同样,数据量可能很大,甚至源源不断到来. 本节,我们就来探讨如何解决这两个

计算机程序的思维逻辑 (13) - 类【转】

类 上节我们介绍了函数调用的基本原理,本节和接下来几节,我们探索类的世界. 程序主要就是数据以及对数据的操作,为方便理解和操作,高级语言使用数据类型这个概念,不同的数据类型有不同的特征和操作,Java定义了八种基本数据类型,其中,四种整形byte/short/int/long,两种浮点类型float/double,一种真假类型boolean,一种字符类型char,其他类型的数据都用类这个概念表达. 前两节我们暂时将类看做函数的容器,在某些情况下,类也确实基本上只是函数的容器,但类更多表示的是自定