KMP算法简明扼要的理解

KMP算法也算是相当经典,但是对于初学者来说确实有点绕,大学时候弄明白过后来几年不看又忘记了,然后再弄明白过了两年又忘记了,好在之前理解到了关键点,看了一遍马上又能理解上来。关于这个算法的详解网上文章可以说遍地开花,可我觉得大多数文章,不需要看内容,光看看详解的文章篇幅就可以吓死人,然后讲来讲去内容也让人云里雾里。我在这里结合自己的理解,简单的解释一下。

在读这篇文章之前,首先请忘记以前了解的关于KMP算法的任何知识点。因为关于有些文章的解释还不一样,可能会让本来就很绕的说法变得更绕,与其说哪样还不如心中无一物一切归零重新开始。

然后来看一张图,这是两段字符暴力匹配的过程:

以上黄色部分是多余比较,红色是不匹配,绿色的匹配成功

目标字符串T:anndandnacanndana
匹配字符串P:anndana

匹配的时候匹配字符串从前到后移动了10次比较结束,最后得到确认结果。但是事实上图中黄色部分的比较是不需要的,也就是说如果利用KMP算法的特点,从中可以减少3次移动,从而会减少一些无意义的比较次数。那么问题来了,KMP算法为什么能减少这么多次比较次数呢?这究竟是有什么内部含义?

事实上,KMP算法就是典型的利用空间换时间,首先根据匹配字符串(annacanna) 特点,换算出来一张表(Next数组),每次移动多少根据表中的数据取值。

好吧,以上就是KMP的概要,至于为什么要这么做,暂时先不管。目前要做的就是死记这两条KMP法则:

Next数组计算法则:对于任何字符串P的第n项(记为Pn),此时的Next[n]为字符串P第n项之前的前缀和后缀共有字符串的最大长度。所谓前缀和后缀,就是分别除去首字符和末尾字符后的所有元素,然后取最大共有字符串的长度

以anndana例:
1."a"的前缀和后缀都为空集,共有元素的长度为0;
2."an"的前缀为[a],后缀为[n],共有元素的长度为0;
3."ann"的前缀为[a, an],后缀为[bn, n],共有元素的长度0;
4."annd"的前缀为[a, an, ann],后缀为[nnd, nd, n],共有元素的长度为0;
5."annda"的前缀为[a, an, ann, annd],后缀为[nnda, nda,da, a],共有元素为"a",长度为1;
6."anndan"的前缀为[a, an, ann, annd, annda],后缀为[nndan, ndan, dan, an, a],共有元素为"AB",长度为1;
7."anndana"的前缀为[a, an, ann, annd, annda, anndan],后缀为[nndana, ndana, dana, ana, na, a],共有元素的长度为1。

移动法则:对于要比较的目标字符串T和匹配字符串P,首先利用匹配字符串P换算出来匹配移动表Next数组,然后匹配,当P(n)与T(m)不等的时候:
1) 如果n=0,则匹配字符串向右移动1位
2) 如果n>0 则取Next(n),向右移动整个匹配字符串直到P(Next(n))与T(m)对其比较。

那么结合上图理解

1.当index=0的时候,不匹配索引出现在6,因为next[6]=1,那么按照上面的法则,就应该讲P(1)与T(6)对其比较,于是需要将P移动5位,那么index=1与index=2,index=3就是多余的比较而画上了黄色。

2.当index=3的时候因为第一项就不匹配,于是出现时n=0,此时右移一位,同样后面也是这个道理。

时间: 2024-11-02 23:37:56

KMP算法简明扼要的理解的相关文章

KMP算法的个人理解

版权声明:转载请声明出处. 前言 自学了一段时间,刚刚准备转行做软件开发,面试过程中被指出计算机基础知识薄弱.因为是非科班出生,确实有些计算机方面的基础没有学过,也开始恶补这些方面的东西. 最近在学习数据结构与算法过程中,学到KMP算法,甚是难解.看了阮一峰的网络日志后才慢慢理解,但也发现其中的瑕疵,在此也顺带指出,至于对或不对,还请各位看客指正. 图片和例子讲解均引自阮一峰的网络日志,稍作修改,侵改. 正文 举例来说,有一个字符串"BBC ABCDAB ABCDABCDABDE",我

【2】KMP算法的一些理解问题

该算法在考研时书上看到过,但是因为不作为必考内容所以没有细细复习.这次复习到才感受到它的魅力,并且也花了很久时间才弄懂了基本概念. 关于KMP的细节不再细说,这里只提出学习的方法和对大家可能遇到的问题的理解: 一.KMP之前 当我们需要在字符串S中找到是否存在P时,是怎么解决的?先看看暴力方法是怎么解决的--因为暴力方法最好理解,符合我们的惯性思维,当然时间复杂度就达到了O(m*n),其中m和n分别代表字符串S的长度和模式串P的长度. 二.什么是KMP KMP的名字是该算法的三个创始人名字首字母

kmp算法模板及理解

kmp算法是复杂度为O(n+m)的字符串匹配算法; 首先kmp算法的核心是在模式串中获得next数组,这个数组表示模式串的子串的前缀和后缀相同的最长长度; 这样在匹配的过程中如果指到不匹配的位置,模式串用next数组进行跳转到符合的位置,而目标串不需要再往回匹配,为什么是最长的相同的前缀后后缀呢? 因为只有这样才能一边避免可能漏掉的位置,一边尽量不重复已经匹配的位置; getNext的函数: void getNext() { int k = -1,j = 0,len = strlen(str);

[算法之美] KMP算法的直观理解

KMP算法是解决字符串匹配问题的,简单说来,其实就是问"P串(Pattern串)是不是T串(Text串)的子串,如果是的话就回答子串在P中的起始位置(即Index函数的返回值)". 穷举的算法是摆好T串并固定,然后手拿着P串一个一个比对.(我们假设i是指向T串的,j是指向P串的) 现在我们拿着P串,看它的第1个字符和T串的第1个字符是不是相同的,是的话就看它的第2个字符和T串的第2个字符是不是相同的--不是的话就把P串右移一格,然后{ 看P串的第1个和T串的第2个是不是相同的,是的话就

KMP算法初步理解

看了两天KMP算法,不知道理解的对不,初步理解总结如下:(主要是各种next数组把自己整晕了,有彻底懂的大神们再给指导下) 首先是思路,"字符串匹配的KMP算法_知识库_博客园"http://kb.cnblogs.com/page/176818/,问题的关键落在求数组上,而求数组实际是对自身求匹配度,所以求next数组的子函数和主函数很类似,所以网上讨论的好像主要是两种next数组,最好把相应的主函数列出来,还有像第二种的next和nextval数组都可用,在主函数相同的情况下,弥补一

计算子串在主串中的位置及其优化(KMP算法)

问题描述:设置一个起始位置,寻找主串中第一次出现子串的首位置. 算法实现: int index(string str,string substr,int pos) { int i=0,j=0; int slen,sslen; i=pos; slen=str.length(); sslen=substr.length(); while(i+sslen<slen) { while(j<sslen) { if(str[i+j]==substr[j]) j++; else break; } if(j=

[算法系列之二十六]字符串匹配之KMP算法

一 简介 KMP算法是一种改进的字符串匹配算法,由D.E.Knuth与V.R.Pratt和J.H.Morris同时发现,因此人们称它为克努特-莫里斯-普拉特操作(简称KMP算法).KMP算法的关键是利用匹配失败后的信息,尽量减少模式串与主串的匹配次数以达到快速匹配的目的. 二 基于部分匹配表的KMP算法 举例来说,有一个字符串"BBC ABCDAB ABCDABCDABDE",我想知道,里面是否包含搜索串"ABCDABD"? 步骤1:字符串"BBC ABC

HDU_1711_初识KMP算法

Number Sequence Time Limit: 10000/5000 MS (Java/Others)    Memory Limit: 32768/32768 K (Java/Others)Total Submission(s): 22568    Accepted Submission(s): 9639 Problem Description Given two sequences of numbers : a[1], a[2], ...... , a[N], and b[1], b

[模板]KMP算法

昨天晚上一直在调KMP(模板传送门),因为先学了hash[关于hash的内容会在随后进行更(gu)新(gu)]于是想从1开始读...结果写出来之后一直死循环,最后我还是改回从0读入字符串了. [预先定义被匹配文本串为s1,长度为m:匹配模式串为s2,长度为n] KMP算法在字符串匹配算法中时间复杂度比较优,可以做到在O(m+n)的时间内匹配,相对于无脑暴力匹配的O(m*n)复杂度而言要优很多. KMP算法的思路比较简单,即在匹配前对字符串进行预处理,用空间换时间,通过处理next数组来实现在部分