[算法系列之二十八]并查集(不相交集合)

一 概述

并查集(Disjoint set或者Union-find set)是一种树型的数据结构,常用于处理一些不相交集合(Disjoint Sets)的合并及查询问题。

有一个联合-查找算法(union-find algorithm)定义了两个操作用于此数据结构:

Find:确定元素属于哪一个子集。它可以被用来确定两个元素是否属于同一子集。
Union:将两个子集合并成同一个集合。

因为它支持这两种操作,一个不相交集也常被称为联合-查找数据结构(union-find data structure)或合并-查找集合(merge-find set)。其他的重要方法,MakeSet,用于建立单元素集合。有了这些方法,许多经典的划分问题可以被解决。

为了更加精确的定义这些方法,需要定义如何表示集合。一种常用的策略是为每个集合选定一个固定的元素,称为代表,以表示整个集合。接着。Find(x)返回x所属集合的代表,而Union(x,y)使用两个集合的代表x,y作为参数。

二 主要操作

1.MakeSet(x)
2.Find(x)
3.Union(x,y)

2.1 MakeSet(x) 建立一个新的集合

建立一个新的集合,其唯一成员(因为是其代表)就是x。因为集合是不相交的,故要求x没有在其它集合中出现过。

2.2 Find(x) 包含x集合的代表

返回一个指针,指向包含x的(唯一)集合的代表。

2.3 Union(x,y) 合并两个不相交集合

将包含x和y的动态集合合并成为一个新的集合。所得集合的代表可以是两个集合的任何成员。但在很多情况下,我们一般选择两个集合之前代表中的一个作为新的代表。

三 不相交集合森林(有根树表示集合)

不相交集合可以用链表实现,但是还有一种更快的方法—–有根树表示集合,树中的每个节点都包含集合的一个成员,每棵树都表示一个集合。如下图:

左边的树表示集合{b,c,e,h}其c是代表;右边的树表示集合{d,f,g}其f是代表。

3.1 MakeSet(x)

MakeSet创建一棵仅包含一个节点的树。初始时父节点为自己。

#define N 100

//申请内存的大小
int parent[N];

// parent[x]表示x的父节点
void MakeSet(int x){
    parent[x] = x;
}

3.2 Find(x)

Find(x)指向包含x的(唯一)集合的代表。沿着父节点指针一直找下去,直到找到树根为止。

int Find(int x){
    // 根节点即集合代表
    if(x == parent[x]){
        return x;
    }//if
    // 沿着父节点指针寻找
    Find(parent[x]);
}

3.3 Union(x,y)

Union操作使的一棵树的根指向另一棵树的根。如下图:

// 合并
void Union(int x,int y){
    x = Find(x);
    y = Find(y);
    parent[y] = x;
}

四 优化

4.1 按秩合并

其思想是使包含较少结点的树指向包含较多结点的树的根。我们并不显示的记录以每个结点为根的子树的大小,而是采用一种能够简化分析的方法。对每个结点,我们用秩表示结点高度(从该结点到某一后代叶节点的最长路径上边的数目)的一个上界。在按秩合并中,具有较小秩的根在Union操作中指向较大秩的根。

rank[x]表示x节点的秩。当由MakeSet创建了一个集合时,对应的树中唯一节点的初始秩为0,每个Find操作都不改变任何秩。

// parent[x]表示x的父节点 rank[x] 表示x的秩
void MakeSet(int x){
    parent[x] = x;
    rank[x] = 0;
}

当对两棵树应用Union时,有两种情况:

(1) 当两个秩不相等时,我们使具有较高秩的根称为具有较小秩的根的父节点,但秩本身保持不变。

(2)当两个秩相等时,任选一个根作为父节点,并增加其秩的值。

void Union(int x, int y){
    x = Find(x);
    y = Find(y);
    if(x == y) {
        return;
    }//if
    if(rank[x] > rank[y]){
        parent[y] = x;
    }//if
    else if(rank[x] < rank[y]){
        parent[x] = y;
    }//else
    else{
        rank[x]++;
    }//else
}

4.2 路径压缩

寻找祖先时,我们一般采用递归查找,但是当元素很多亦或是整棵树变为一条链时,每次Find(x)都是O(n)的复杂度。为了避免这种情况,我们需对路径进行压缩,即当我们经过”递推”找到祖先节点后,”回溯”的时候顺便将它的子孙节点都直接指向祖先,这样以后再次Find(x)时复杂度就变成O(1)了,如下图所示。可见,路径压缩方便了以后的查找。

其中三角表示子树,其根为所示节点。

// 带路径压缩的Find
int Find(int x){
    // 根节点即集合代表
    if(x != parent[x]){
        // 更新节点x使之指向根
        parent[x] = Find(parent[x]);
    }//if
    return parent[x];
}

Find是一种两趟方法:一趟是沿查找路径上升,直到找到根;另一趟是沿查找路径下降,一便更新每个节点,使之指向根节点。

五 复杂度分析

空间复杂度为O(N),建立一个集合的时间复杂度为O(1),N次合并M查找的时间复杂度为O(M Alpha(N)),这里Alpha是Ackerman函数的某个反函数,在很大的范围内(人类目前观测到的宇宙范围估算有10的80次方个原子,这小于前面所说的范围)这个函数的值可以看成是不大于4的,所以并查集的操作可以看作是与m成线性关系。

六 应用

并查集常作为另一种复杂的数据结构或者算法的存储结构。常见的应用有:求无向图的连通分量个数,最近公共祖先(LCA),带限制的作业排序,实现Kruskar算法求最小生成树等。

七 引用

并查集

数据结构之并查集

算法导论

时间: 2024-08-12 14:52:29

[算法系列之二十八]并查集(不相交集合)的相关文章

[算法系列之二十四]后缀树(Suffix Tree)

之前有篇文章([算法系列之二十]字典树(Trie))我们详细的介绍了字典树.有了这些基础我们就能更好的理解后缀树了. 一 引言 模式匹配问题 给定一个文本text[0-n-1], 和一个模式串 pattern[0-m-1],写一个函数 search(char pattern[], char text[]), 打印出pattern在text中出现的所有位置(n > m). 这个问题已经有两个经典的算法:KMP算法 ,有限自动机,前者是对模式串pattern做预处理,后者是对待查证文本text做预处

算法系列之二十四:离散傅立叶变换之音频播放与均衡器

导语 在算法系列的第二十二篇,我们介绍了离散傅立叶变换算法的实现,将时域的音频信号转换到频域进行分析,获取拨号音频的频率特征.这一篇我们将介绍一种频域均衡器的实现方法,所谓的频域均衡器,就是在频域信号的基础上对音频数据进行调整,然后再将频域信号转换成时域信号在回放设备上播放,从而达到音色调节的目的.将频域信号转换成时域信号的算法,就是离散傅立叶逆变换算法. 1 离散傅立叶逆变换 有从时域转换到频域的方法,就必然有从频域转换到时域的方法,相对于离散傅里叶变换,这个反向转换就是离散傅里叶逆变换(ID

[算法系列之二十六]字符串匹配之KMP算法

一 简介 KMP算法是一种改进的字符串匹配算法,由D.E.Knuth与V.R.Pratt和J.H.Morris同时发现,因此人们称它为克努特-莫里斯-普拉特操作(简称KMP算法).KMP算法的关键是利用匹配失败后的信息,尽量减少模式串与主串的匹配次数以达到快速匹配的目的. 二 基于部分匹配表的KMP算法 举例来说,有一个字符串"BBC ABCDAB ABCDABCDABDE",我想知道,里面是否包含搜索串"ABCDABD"? 步骤1:字符串"BBC ABC

[算法系列之二十]字典树(Trie)

一 概述 又称单词查找树,Trie树,是一种树形结构,是一种哈希树的变种.典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计. 二 优点 利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较,查询效率比哈希表高. 三 性质 (1)根节点不包含字符,除根节点外每一个节点都只包含一个字符: (2)从根节点到某一节点,路径上经过的字符连接起来,为该节点对应的字符串: (3)每个节点的所有子节点包含的字符都不相同. 单词列表为"apps&

[算法系列之二十二]包含T全部元素的最小子窗口

题目描述 给定一个包含一系列字符的集合T和字符串S,请在字符串S中找到一个最小的窗口,这个窗口中必须包含T中的所有字符. 例如, S = "ADOBECODEBANC" T = "ABC" 最小窗口是"BANC" 分析 这是一个有趣的问题,这个有趣的问题有多种方法来解决,最好的方法是非常简单,美丽的. 在这篇文章中,我首先说明了一个方法,是我第一次遇见这个问题时想到的.我的第一个方法有点复杂,同时也不是最好的解决方案(时间复杂度为O(NlgM))

并查集:不相交集合

并查集是一种树型的数据结构,其保持着用于处理一些不相交集合(Disjoint Sets)的合并及查询问题.支持三种操作: Make-Set : 用于建立单元素集合. Find-Set:确定元素属于哪一个子集.它可以被用来确定两个元素是否属于同一子集. Union:将两个子集合并成同一个集合. 1.并查集的数组表示 //x表示元素,s[x]表示x所属集合 int s[N]; Make-Set(x){ s[x] = x; } Find-Set(x){ return s[x]; } //将y在所属集合

【Android Studio安装部署系列】二十八、Android Studio查看其它APP的布局结构

概述 日常使用别家的APP过程中,会遇到一些比较好看的布局,这时候我们就想学习一下别人的布局结构,以便参考. (1)手机连接电脑.设置手机为USB调试模式 参考<[Android Studio安装部署系列]七.真机运行项目> (2)运行Android Studio,打开 Tools--Android--Android Device Monitor 注意:android Studio3.1开始只能通过命令行的方式启动Android Device Monitor. 双击sdk安装目录/tools/

网络安全系列之二十八 端口扫描

端口扫描在系统攻防中占据非常重要的地位,在了解端口扫描之前,有必要先了解一些TCP协议以及三次握手的相关知识. 1. TCP协议 TCP报文格式如下图所示: 其中比较重要的几个字段: 复位比特RST:当RST=1时,表明TCP连接中出现严重差错(如由于主机崩溃或其它原因),必须释放连接,然后再重新建立连接. 同步比特SYN:同步比特SYN置为1,就表示这是一个连接请求或连接接受报文. 终止比特FIN:用来释放一个连接.当FIN=1时,表明此报文的发送端的数据已发送完毕,并要求释放连接. TCP三

Java并发编程系列之二十八:CompletionService

CompletionService简介 CompletionService与ExecutorService类似都可以用来执行线程池的任务,ExecutorService继承了Executor接口,而CompletionService则是一个接口,那么为什么CompletionService不直接继承Executor接口呢?主要是Executor的特性决定的,Executor框架不能完全保证任务执行的异步性,那就是如果需要实现任务(task)的异步性,只要为每个task创建一个线程就实现了任务的异