扩展KMP

扩展KMP问题

给定母串S,子串T。定义n = len(S), m = len(T), exend[i] = S[i....n-1]与T的最长公共前缀,在线性时间复杂度内,求出所有的extend[0....n-1]. 
    如果有某个位置i满足extend[i] = m,那么T就肯定在S中出现过,并且进一步知道首位置是i——经典的KMP问题。 
    由此可见,“扩展的KMP问题”是对经典KMP问题的一个扩充。

求解扩展KMP问题

假设已有针对子串T的next数组,next数组的定义为:

next[i]表示T[i....m-1] 和 T[0...m-1]的最长相同前缀。即next[i] = max{z | T[0...z-1] = T[i, i + z - 1]}

并且已经知道 extend[0]..extend[k-1] 的值,进一步求extend[k]的值。 
    此时,假设1...k中的a是使得 i + extend[i] - 1( 0 =< i <= k)最大的那个i,且p = a + extend[a] - 1。 
 
 
根据定义有 S[a...p] = T[0...p-a], 于是有 S[k...p] = T[k-a...p-a],令L = next[k-a],此时有两种情况: 
(1) k + L -1 < p 
 
    此时,会出现上图所示情况,图中用T[0...L-1]代替T[k-a, ...k-a+L-1]的部分(即下方的绿色部分),绿色部分一定相同,红色部分一定不同,否则会和next[i]为T[i...m]和T的最长相同前缀长度矛盾。此时,可以看出extend[k] = L. 
(2) k + L -1 >= p 
 
    此时,会出现上图所示情况,图中用T[0...L-1]代替T[k-a, ...k-a+L-1]的部分(即下方的红色和紫色部分),绿色部分一定相同,紫色部分不一定相同 
。此时需要比较 S[p+1]和T[p-k+1],S[p+2]和T[p-k+2]....直到失配为止。匹配完之后,比较extend[a] + a和extend[k] + k的大小,如果后者大,则更新a。

算法的时间复杂度 
    该算法为线性算法,容易看出,在计算的过程中,凡是访问过的点,都不需要重新访问。一旦比较,比较的都是以前从不曾访问过的点,因此总的时间复杂度为O(n+m).

next数组的求解 
    母串和子串都使用T,则next数组即为extend数组。可以确定next[0] = m,然后按照求extend的方法求解即可。

实现(c++)

void GetNext(char* sub_str, int* next){
	int m = strlen(sub_str);
	next[0] = m;
	next[1] = 0;
	for (int i = 0; i < m - 1; i++){
		if (sub_str[i] == sub_str[i + 1])
			next[1] ++;
		else
			break;
	}
	int a = 1;		//确定next[0]和next[1]
	for (int k = 2; k < m; k++){
		int p = next[a] + a - 1;
		int L = next[k - a];
		if (k + L - 1 < p){
			next[k] = L;
		}
		else{
			int j = p + 1 - k > 0 ? p + 1 - k : 0;	//注意 p = a + next[a] - 1 可能比较小,比如为0, 此时p+1-k 可能小于0;
													//j必须调整为大于等于0
			while (j + k < m && sub_str[j + k] == sub_str[j]){
				++j;
			}
			next[k] = j;
			a = k;
		}
	}
}

void GetExtend(char* mas_str, char* sub_str, int* next, int* extend){
	int n = strlen(mas_str);
	int m = strlen(sub_str);
	int i = 0;
	extend[0] = 0;
	while (mas_str[i] == sub_str[i]){
		++i;
		extend[0]++;
	}
	int a = 0;		//确定extend[0]
	for (int k = 1; k < n; k++){
		int p = a + extend[a] - 1;
		int L = next[k - a];

		if (k + L - 1 < p){
			extend[k] = L;
		}
		else{
			int j = p - k + 1 > 0 ? p - k + 1 : 0; ////注意 j必须大于等于0
			while (i < n && j < m && mas_str[j+k] == sub_str[j]){
				++j;
			}
			a = k;
			extend[k] = j;
		}
	}
}
时间: 2024-10-10 03:00:33

扩展KMP的相关文章

hdu2328 Corporate Identity 扩展KMP

Beside other services, ACM helps companies to clearly state their "corporate identity", which includes company logo but also other signs, like trademarks. One of such companies is Internet Building Masters (IBM), which has recently asked ACM for

扩展KMP算法

扩展KMP,用于求s的后缀的最长前缀.用extand数组表示第i个后缀的最长前缀的字符个数. 注意几点:1.next数组是对T的   2.extand数组是对S的 3.应用:回文,重复串等 代码如下: 1 #include<iostream> 2 #include<string> 3 #include<cstdio> 4 using namespace std; 5 const int MM=100005; //长度最大值 6 int next[MM],extand[M

扩展kmp——原创

扩展kmp                 LRH 所谓扩展kmp指的是与kmp相似的求辅助数组的原理,但是本身与kmp关系不大. 1.exkmp的用途:给定一个主串s和一个子串t,求出s中每一个后缀和子串t的最长公共前缀. 2.算法推导: 给定一个主串:S=aaaaaaaaaabaaa  T=aaaaaaaaaaa (下标都是从零开始!!!)                  第一步 需要有两个辅助数组:extand[i]和next[i]: extand[i]:表示主串S以i开始的后缀与子串T

扩展KMP模板

扩展KMP:    给出模板串A和子串B,长度分别为lenA和lenB,要求在线性时间内,对于每个A[i](0 <= i < lenA),求出A[i..lenA-1]与B的最长公共前缀长度,记为ex[i](或者说,ex[i]为满足A[i..i + z - 1]==B[0 .. z - 1]的最大的z值).    扩展KMP可以用来解决很多字符串问题,如求一个字符串的最长回文子串和最长重复子串.[算法]    设next[i]为满足B[i..i + z - 1] == B[0..z - 1]的最

扩展KMP - HDU 4333 Revolving Digits

Revolving Digits Problem's Link: http://acm.hdu.edu.cn/showproblem.php?pid=4333 Mean: 给你一个字符串,你可以将该字符串的任意长度后缀截取下来然后接到最前面,让你统计所有新串中有多少种字典序小于.等于.大于原串. analyse: KMP的经典题. 首先我们将原串扩展成两倍,算一遍扩展KMP(自匹配),时间复杂度O(n). 这样一来,我们就得到了eKMP[i],eKMP[i]代表s[i...len-1]与s的最长

HDU 4300 (扩展KMP或KMP)

题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=4300 题意:说实话,看半天题目,愣是没看懂,百度题意才看懂,大概意思就是:第一个串串为匹配串,第i个代表字母顺序中的第i个,比如第一个是q,那么,q就代表a. 第二个串是密文+明文,密文全部都有,但明文可能不全,输出完整的密文+明文. 题解:有两种做法,第一种,用扩展KMP: 1.先把s2砍半,前面一半必定为密文,后面一半可能是密文+明文. 2.把前面的一半转化成明文. 3.用后面的和前面的找最长公

浅谈Manacher算法与扩展KMP之间的联系

首先,在谈到Manacher算法之前,我们先来看一个小问题:给定一个字符串S,求该字符串的最长回文子串的长度.对于该问题的求解,网上解法颇多,时间复杂度也不尽相同,这里列述几种常见的解法. 解法一 通过枚举S的子串,然后判断该子串是否为回文,由于S的子串个数大约为,加上每次判断需要的时间,所以总的时间复杂度为,空间复杂度为. bool check(string &S, int left, int right) { while (left < right && S[left]

Part.5【马拉车&amp;扩展KMP】

Manacher(马拉车)是一种求最长回文串的线性算法,复杂度O(n).网上对其介绍的资料已经挺多了的,请善用搜索引擎. 而扩展KMP说白了就是是求模式串和主串的每一个后缀的最长公共前缀[KMP更像是一个自动机] 题目: POJ 1159: Palindrome 求原字符串最少增加几个字符后可变成回文串,相当于求最长回文子序列的长度. 解法:直接求串S和反转串Sr的最长公共子序列. #include <cstdlib> #include <cstdio> #include <

KMP与扩展KMP

原文转自:http://www.cppblog.com/MatoNo1/archive/2011/04/17/144390.aspx KMP:给出两个字符串A(称为模板串)和B(称为子串),长度分别为lenA和lenB,要求在线性时间内,对于每个A[i] (0<=i<lenA),求出A[i]往前和B的前缀匹配的最大匹配长度,记为ex[i](或者说,ex[i]为满足A[i- z+1..i]==B[0..z-1]的最大的z值).KMP的主要目的是求B是不是A的子串,以及若是,B在A中所有出现的位置

HDU 6153 A Secret(扩展KMP模板题)

A Secret Time Limit: 2000/1000 MS (Java/Others)    Memory Limit: 256000/256000 K (Java/Others) Total Submission(s): 2523    Accepted Submission(s): 934 Problem Description Today is the birthday of SF,so VS gives two strings S1,S2 to SF as a present,w