KMP算法实现原理

KMP算法,是由Knuth,Morris,Pratt共同提出的模式匹配算法,其对于任何模式和目标序列,都可以在线性时间内完成匹配查找,而不会发生退化,是一个非常优秀的模式匹配算法。其算法的主要功能就是寻找在给定的母串中寻找是否含有一个给定的连续字符串。下面举个例子,如图一所示:

图一:

我们需要在上面的目标串中寻找是否存在一个ABCDABD的字串,在这里我们将图一的长串称为目标串,短串叫做搜索串。图一示例了一般的寻找过程:我们从第一个字符串开始寻找,如果第一个字符串不匹配,我们就继续检查下一个字符串是否匹配,如图2所示:

图二:

但是假设我们如果在目标串中找到了部分匹配字符,如下图所示:

图三:

从上图可以看出只有D字符与上面的目标串不一样,遇到这样的情况,如果我们还是将比较串向后移动一位的话,那么我们之前的

ABCDAB就会重复搜索,这样效率就会降低。当我们确定D不匹配时,前面6个字符是匹配的,那么我们可不可以利用这个信息来避免

将搜索串一位一位向右移动以期待寻找在目标串中和搜索串第一个字符匹配的位置,因为要确定搜索串是否存在于目标串中的第一

步就是要找到两个字符串的公共字符,在上述的例子中就是字符A。那么为了解决这个问题,Knuth,Morris,Pratt利用一张表来存

放一个叫部分匹配值的数组,如下:

图四:

这个表的得到方法我们暂且不讨论,上表是基于“前缀”和“后缀”这两个概念,“前缀”是除了最后一个字符串意外,从第一个

字符串开始长度依次递增1的字符串序列;“后缀”则刚好相反;一下是前缀串和后缀串集合的产生过程:

图五:

那么知道了部分匹配数组是怎么来的,它的作用究竟是什么?在写博客之前,看过不少的人写文章来分析这个算法,但是觉得写得

好的可能只有http://www.ruanyifeng.com/blog/2013/05/Knuth–Morris–Pratt_algorithm.html,这篇博客很详细的介绍了算法的

原理和部分匹配值数组的来历。下面就结合这篇博客和个人理解来说说部分匹配值数组的作用。

对于这种问题,我们一般的解决方案是将搜索串ABCDABD相对于目标串向右一位一位地移动,如果找在目标串中找到一个和

搜索串的第一个字符A相等的位置的话,我们会暂停将搜索串继续向右移动,而是继续比较它们的第二个字符串B,如果搜索串从头到

尾都存在于目标串中,那么算法结束,否则继续将搜索串向右移动。但在图三所示的情况,如果继续将搜索串向右一位一位移动以

期待寻找在目标串中和搜索串第一个字符匹配的位置(因为要确定搜索串是否存在于目标串中的第一步就是要找到两个字符串的公

共字符)的话效率很低。为了确定搜索串的第一个字符在目标串的下一次出现位置(在常规的算法中,我们向右一位一位移动搜索串就是认为它们的公共字符A在下一个位置出现),我们利用部分匹配值表来标记,还是上面的例子,我么匹配到D的时候失败

了,但ABCDAB这些是匹配的,那么从部分匹配值表中可以知道,ABCDAB这个符串中最后匹配位B的值为2,然后搜索串向后移动的

位数=当前匹配的位数(6)-最后匹配字符的部分匹配值(B,2),这是什么意思????结合前面的前缀和后缀来看,2代表在ABCDAB中,

从第一个字符A开始与包含最后一个字符B为止的所有字符串集合中,它们所形成的最大公共子符串长度为2.移动的位数(4)=当前匹

配的位数(6)-最后匹配字符的部分匹配值(B,2)这个公式就代表将搜索串向后移动4个位置后又可以使目标串和搜索串的第一个字符

相等(这样我们就可以后续的比较)。下面就用一张图来解释:

我们可以看到左右方框的字符长度相等且内容相等,那么将左边方框子符串向右移动(黑色区域的总长-方框字符长度)个单位后,就

会重合。重合的位置的起点刚好是搜索串的起点,这个起点的位置也是下一次搜索串的首字符和目标串当前位置相等的字符。

所以现在关键的任务是求出部分匹配值表!!!!!

算法实现(c++):

vector<int>get_partial_match_table(string &s){
	int size = s.size(),pre;
	vector<int>tab(size,0);
	if (size == 1)return tab;
	if (s[0] == s[1])tab[1] = 1;
	else tab[1] = 0;
	for (int i = 2; i < size;i++){
		if (tab[i - 1] == 0){
			if (s[i] == s[0])tab[i] = 1;
		}
		else{
			if (s[i] == s[tab[i - 1]])tab[i] = tab[i - 1] + 1;
		}
	}
	return tab;
}

算法利用动态规划方法。一开始我么将表的所有元素都置为0,我们还是用ABCDABD为例子:

index 0 1 2 3 4 5 6
char A B C D A B D
value 0 0 0 0 1 2 0

可以看到假设我们i=5,那么tab[i-1]=1,那么截止到i=4它的前缀集合是:

A,AB,ABC,ABCD

它的后缀集合是:

A,DA,CDA,BCDA,因为有一个A是一样的,所以tab[4]=1;

如果这时候我们把B(i=5)加进来,那么对于前缀来说就是增加了一项ABCDA,那么现在的前缀变成:

A,AB,ABC,ABCD,ABCDA;

后缀变成:

B,AB,DAB,CDAB,BCDAB;

那么他们的公共最长字符串就是AB,所以tab[5]=2;

总结来说就是:如果第i-1项的值为n,可以知道截止到第i-1位为止,它们的公共字符串长度为n,那么在新形成的后缀集

合中所有的字串的后面都加第i个字符,且增加一个以第i个字符单个形成的子集(以上面的字符B为例子),在新形成的前缀结

合中增加一个ABCDA即可。下面是完整代码:

</pre><pre name="code" class="cpp">#include<iostream>
#include<vector>
#include<map>
#include<sstream>
#include<fstream>
#include<cstring>
#include<algorithm>
using namespace std;

vector<int>get_partial_match_table(string &s){
	int size = s.size(),pre;
	vector<int>tab(size,0);
	if (size == 1)return tab;
	if (s[0] == s[1])tab[1] = 1;
	else tab[1] = 0;
	for (int i = 2; i < size;i++){
		if (tab[i - 1] == 0){
			if (s[i] == s[0])tab[i] = 1;
		}
		else{
			if (s[i] == s[tab[i - 1]])tab[i] = tab[i - 1] + 1;
		}
	}
	return tab;
}

int main(){
	ifstream fin("C:\\Users\\Dell\\Desktop\\data.txt");
	string tar, search;
	vector<int>tab;
	while (fin >> tar >> search){
		int size1 = tar.size(), size2 = search.size(), count = 0, begin = -1, pre_i;
		int start = 0;//从下标start开始比较
		tab = get_partial_match_table(search);
		for (int i = 0; i < size1;){//j代表目标串
			count = 0;
			start = 0;
			pre_i = i;
			while (start <= size2&&i<size1&&search[start] == tar[i]){//搜索串的首字母和目标串的第i个字母相同
				start++;
				count++;
				i++;
			}
			if (count == size2){
				begin = pre_i;
				break;
			}
			else{//没有完全匹配
				if (count>0)i = pre_i + count - tab[count - 1];
				else i = pre_i + 1;
			}
		}
		if (begin == -1)cout << "Not Exist!" << endl;
		else cout << "The index of the first match char is: " << begin << endl;
		tab.clear();
	}
	return 0;
}

测试用例:

BBBBBBBBBBBB
AAAA
<strong><span style="color:#ff0000;">B</span></strong>BBBBB
BB
BBCABCDABABCD<strong><span style="color:#ff0000;">A</span></strong>BCDABDE
ABCDABD

测试结果:

时间: 2024-09-29 05:59:37

KMP算法实现原理的相关文章

KMP算法匹配原理以及C++实现

原创作品,转载请注明出处:点我 假设A表示目标字符串,A="abababaababacb",B表示匹配模式,B="ababacb" 用两个指针i和j分别表示,A[i-j+1 .... i]与B[1...j]完全相等.也就是说,i是不断增加的,随着i的增加j相应的变化,且满足以A[i]结尾的长度为j的字符串正好匹配B串的前j个字符(j当然越大越好),现在需要jianyanA[i+1]和B[j+1]的关系.当A[i+1]=B[j+1]时,i和j各自增加一,什么时候j=m

字符串匹配--kmp算法原理整理

kmp算法原理:求出P0···Pi的最大相同前后缀长度k: 字符串匹配是计算机的基本任务之一.举例,字符串"BBC ABCDAB ABCDABCDABDE",里面是否包含另一个字符串"ABCDABD"? 许多算法可以完成这个任务,Knuth-Morris-Pratt算法(简称KMP)是最常用的之一. KMP算法搜索如下: 1.首先,字符串"BBC ABCDAB ABCDABCDABDE"的第一个字符与搜索词"ABCDABD"的

模式匹配KMP算法

关于KMP算法的原理网上有很详细的解释,我总结一下理解它的要点: 以这张图片为例子 这里我们匹配到j=5时失效了,接下来就直接比较T[2](next[5]=2)和S[5] 那为什么可以跳过朴素算法里的几次比较,而直接用T[next[j]]比较就可以呢? 我们匹配过S0S1S2S3S4=T0T1T2T3T4, next[5]=2,2是公共序列的最大长度了,也就是说: T0T1=T3T4,但是T0T1T2≠T2T3T4,T0T1T2T3≠T1T2T3T4, 那么就有S3S4=T3T4=T0T1,而S

不能更通俗了!KMP算法实现解析

我之前对于KMP算法理解的也不是很到位,如果很长时间不写KMP的话,代码就记不清了,今天刷leetcode的时候突然决定干脆把它彻底总结一下,这样即便以后忘记了也好查看.所以就有了这篇文章. 本文在于帮助大家理解KMP算法的编码实现,假设大家已经明白了KMP算法的原理.如果还不太理解,请参考阮一峰老师的这篇博文,写的不能更清楚了:) 好吧,现在让我们正式开始. 首先,我们要简单回顾一下KMP算法的流程,假设要在串s中找串p,如下图所示.现在已经匹配了有一段了(绿色部分),但是在某个地方发生了失配

KMP算法详解 --- 彻头彻尾理解KMP算法

[经典算法]——KMP,深入讲解next数组的求解 前言 之前对kmp算法虽然了解它的原理,即求出P0···Pi的最大相同前后缀长度k:但是问题在于如何求出这个最大前后缀长度呢?我觉得网上很多帖子都说的不是很清楚,总感觉没有把那层纸戳破,后来翻看算法导论,32章 字符串匹配虽然讲到了对前后缀计算的正确性,但是大量的推理证明不大好理解,没有与程序结合起来讲.今天我在这里讲一讲我的一些理解,希望大家多多指教,如果有不清楚的或错误的请给我留言. 1.kmp算法的原理: 本部分内容转自:http://w

[转July]KMP算法(mark)

从头到尾彻底理解KMP 作者:July时间:最初写于2011年12月,2014年7月21日晚10点 全部删除重写成此文,随后的半个多月不断反复改进. 1. 引言 本KMP原文最初写于2年多前的2011年12月,因当时初次接触KMP,思路混乱导致写也写得混乱.所以一直想找机会重新写下KMP,但苦于一直以来对KMP的理解始终不够,故才迟迟没有修改本文. 然近期因在北京开了个算法班,专门讲解数据结构.面试.算法,才再次仔细回顾了这个KMP,在综合了一些网友的理解.以及跟我一起讲算法的两位讲师朋友曹博.

KMP算法之next数组的求解思路

2.next数组的求解思路 本部分内容转自:http://www.ruanyifeng.com/blog/2013/05/Knuth%E2%80%93Morris%E2%80%93Pratt_algorithm.html 通过上文完全可以对kmp算法的原理有个清晰的了解,那么下一步就是编程实现了,其中最重要的就是如何根据待匹配的模版字符串求出对应每一位的最大相同前后缀的长度.我先给出我的代码: 1 void makeNext(const char P[],int next[]) 2 { 3 in

字符串匹配暴力算法 与 字符串匹配的KMP算法

声明:先看一下阮一峰的网络日志关于字符串的KMP算法的讲解.本文图片均引用于这篇日志. 在先前的笔试中遇到了关于字符串匹配的问题,一时脑袋卡壳没写好算法.现在就来分析分析 暴力算法和KMP算法各自原理,以及代码实现,之间差异,并且总结一下好算法的一般思路. =========================================================================== 各自原理: 暴力算法: 1. 我们把长的字符串做为一个文本字符串,命名为strText,把

KMP算法详解 --从july那学的

KMP代码: 1 int KmpSearch(char* s, char* p) 2 { 3 int i = 0; 4 int j = 0; 5 int sLen = strlen(s); 6 int pLen = strlen(p); 7 while (i < sLen && j < pLen) 8 { 9 //①如果j = -1,或者当前字符匹配成功(即S[i] == P[j]),都令i++,j++ 10 if (j == -1 || s[i] == p[j]) 11 {