【文文殿下】后缀自动机(SAM)求最长公共子串的方法

首先,在A 串上建立一个SAM,然后用B串在上面跑。具体跑的方法是:

从根节点开始,建立一个指针 p ,指着B串的开头,同步移动指针,沿着SAM的边移动,如果可以移动(即存在边)那么万事皆好,直接len++就好,但是,如果无法继续转移(失配了),那么,我们考虑跳回其父节点,因为其父节点的Right集是当前状态的真超集,那么其父节点状态所代表的字符串的集合中的任意一个字符串,都是当前状态所代表的字符串集合中的正在匹配的字符串(会不会一定是最长串?)的后缀,所以,有一个贪心的思想:父节点状态中的最长串一定是合法的,我们顺着父节点找上去,一定最终可以找到一个节点允许下一个字符转移,或者找到了0号节点。

第一种情况:找到了一个合适的状态,那么大家都好,直接从这里继续跑,同时把len强制更新为Max(G)(这里要不要+1有一点争论,如果+1,那么接下来跑串时,之前失配的那个字符可能对答案贡献了2次?,因为跑到下一个状态时,是沿着之前那个失配字符的那条边跑的,这会导致len++,所以我认为这里不应该+1),因为我们之前跑的那个已经成功的串,这里一定取那个已经匹配了的最长后缀,然后接下来继续跑串。

第二中情况:我们无法找到一个状态拥有x这条边,就算是根节点也没有这个边,说明模板串出现了一个原串中没有出现的字符,我们强制更新当前状态为根节点,然后把指针p从字符x挪过去,从他的下一个字符开始匹配。

但实际上,我们没必要考虑第二种情况:我们先预处理模板串,把原串中不存在的字符去掉,把模板串分成一个个小的模板串,然后从最大的模板串跑匹配,记录当前答案,这里有一个显而易见的优化:如果即将跑的模板串长度低于全局答案,那么我们跳过这个模板串。

事实上,len不应该设为Max(G)+1。

原文地址:https://www.cnblogs.com/Syameimaru/p/9338969.html

时间: 2024-11-10 08:03:54

【文文殿下】后缀自动机(SAM)求最长公共子串的方法的相关文章

POJ 2774 后缀数组:求最长公共子串

思路:其实很简单,就是两个字符串连接起来,中间用个特殊字符隔开,然后用后缀数组求最长公共前缀,然后不同在两个串中,并且最长的就是最长公共子串了. 注意的是:用第一个字符串来判断是不是在同一个字符中,刚开始用了第二个字符的长度来判断WA了2发才发现. #include<iostream> #include<cstdio> #include<cstring> #include<algorithm> #include<map> #include<

poj 2774 Long Long Message,后缀数组,求最长公共子串 hdu1403

题意:给出两个字符串,求最长公共子串的长度. 题解:首先将两个字符串连在一起,并在中间加一个特殊字符(字串中不存在的)分割,然后两个串的最长公共字串就变成了所有后缀的最长公共前缀.这时就要用到height数组,因为任意两个后缀的公共前缀必定是某些height值中的最小值,而这个值如果最大则一定是height中的最大值.在此题中还要注意height最大一定要在两个值所代表的后缀分属不同的字符串地前提下. #include<cstdio> #include<cstring> #incl

BZOJ 2946 POI2000 公共串 后缀自动机(多串最长公共子串)

题意概述:给出N个字符串,每个串的长度<=2000(雾...可能是当年的年代太久远机子太差了),问这N个字符串的最长公共子串长度为多少.(N<=5) 抛开数据结构,先想想朴素做法. 设计一种稳定的暴力算法.可以想到这样一种做法:首先确定一个串,枚举每个位置,然后暴力计算其他每个串以这个位置开头的最长匹配,取最小值,就是在公共子串在我们确定下来的串的这个位置开头的时候所能得到的最长公共子串.不难发现把这个问题转化成后缀的形式也是一样的.同时发现可能在枚举多个位置的时候答案甚至最后构造出来的串都是

HDU 1403 Longest Common Substring(后缀数组啊 求最长公共子串 模板题)

题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=1403 Problem Description Given two strings, you have to tell the length of the Longest Common Substring of them. For example: str1 = banana str2 = cianaic So the Longest Common Substring is "ana", a

POJ 题目2774 Long Long Message(后缀数组,求最长公共子串长度)

Long Long Message Time Limit: 4000MS   Memory Limit: 131072K Total Submissions: 23696   Accepted: 9705 Case Time Limit: 1000MS Description The little cat is majoring in physics in the capital of Byterland. A piece of sad news comes to him these days:

利用后缀数组(suffix array)求最长公共子串(longest common substring)

摘要:本文讨论了最长公共子串的的相关算法的时间复杂度,然后在后缀数组的基础上提出了一个时间复杂度为o(n^2*logn),空间复杂度为o(n)的算法.该算法虽然不及动态规划和后缀树算法的复杂度低,但其重要的优势在于可以编码简单,代码易于理解,适合快速实现. 首先,来说明一下,LCS通常指的是公共最长子序列(Longest Common Subsequence,名称来源参见<算法导论>原书第3版p223),而不是公共最长子串(也称为最长公共子串). 最长公共子串问题是在文本串.模式串中寻找共有的

【SAM】codevs3160-最长公共子串

[题目大意] 求两个字符串的最长公共子串. [思路] 对第一个字符串建立后缀自动机,第二个字符串去匹配.cnt记录当前最长公共子串的长度,而ret记录答案. p代表位置指针,初始在rt位置. 对于第二个字符串的某一位s[i],如果当前有s[i]孩子,则cnt+1,继续往后移动:否则沿着pre指针返回.如果pre指针返回到0,则将p回到rt,cnt清空为0;否则如果中间有点拥有s[i]孩子,cnt=step[]+1. 为什么cnt=step[]+1?不要忘了后缀自动机的本质是维护后缀,沿着pre指

字符串hash + 二分答案 - 求最长公共子串 --- poj 2774

Long Long Message Problem's Link:http://poj.org/problem?id=2774 Mean: 求两个字符串的最长公共子串的长度. analyse: 前面在学习后缀数组的时候已经做过一遍了,但是现在主攻字符串hash,再用字符串hash写一遍. 这题的思路是这样的: 1)取较短的串的长度作为high,然后二分答案(每次判断长度为mid=(low+high)>>1是否存在,如果存在就增加下界:不存在就缩小上界): 2)主要是对答案的判断(judge函数

求最长公共子串(串)

题目描述 求采用顺序结构存储的串s和串t的一个最长公共子串,若没有则输出false,若最长的有多个则输出最先出现的那一串. 输入要求 输入两个字符串 输出要求 输出公共子串 假如输入 abcdef adbcef 应当输出 bc 思路: 1. 将连个字符串分别以行列组成一个矩阵. 2.若该矩阵的节点对应的字符相同,则该节点值为1. 3.当前字符相同节点的值 = 左上角(d[i-1, j-1])的值 +1,这样当前节点的值就是最大公用子串的长. (s2) b c d e (s1) a