浅谈数据结构之KMP(串中的模式匹配算法)

KMP算法是一种模式匹配算法的改进版,其通过减少匹配的次数以及使主串不回朔来减少字符串匹配的次数,从而较少算法的相应代价,但是,事件万物是普遍归中的,KMP算法的有效性也是有一定的局限的,我将在本文的最后也讨论这个算法的局限性。

一般的匹配算法:

KMP基本概念引入:

但是,其实我们会发现,上面的中间两个匹配步骤是没有必要的,因为他们的第一个匹配字母就不相同,完全没有可比性,而当我们在第四次匹配的时候,其实我们从模式串中就可得知,只有当模式串滑到这个地方的时候,它的匹配才是最有价值的,因为从模式串中我们可以得知,最后一个C的前一个字母是a,而在模式串中的第二个字母b的前一个字母也是a,再无其他,从第一步匹配的结果我们可以得知,模式串中的最后一个字母c与主串中的b匹配失败(读者们是否注意到,我们前面提到的,这个c的前一个字母是a哦), 而从模式串中我们可以得知,即我们完全可以跳过上面匹配步骤的中间的两步,那是否读者在担心中间会错过原本可以匹配的呢,完全不必担心,因为在我们的模式串中就记录了,前面就连一个能和a进行匹配的字母都没有。
  那么,当某一轮匹配失败时,模式项的滑动位置如何确定,即模式项中的那一项来和主串的的b(黄色格子内)对齐,从而省略中间的比较项,我们可以将这一项的index设置为K,如上的模式项,K为2   注意在串中,数组的第一项是用来记录数据个数的。

-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------

如上所述,KMP算法的关键,即根据模式串找到那个K(下面列出K所需要满足的条件)(当主串中第i个字符与子串中第j个字符失配时):

设主串为:s1s2……sn  子串为:p1p2……pn

则K的取值应满足:

----------------------》》》》》》》》》》》》》》》

归根结底,找模式串与串头重复的子串:

实例:

那么:如何找到模式串中的每一个元素的K,也即如图中的next数组:

代码敬上:

void get_next(SString T,int next[])
 { /* 求模式串T的next函数值并存入数组next 算法 4.7 */
   int i=1,j=0;
   next[1]=0;
   while(i<T[0])
     if(j==0||T[i]==T[j])
     {
       ++i;
       ++j;
       next[i]=j;
     }
     else
       j=next[j];  /*精髓之处  当前面已经有了相似的比较的时候,直接借用前面的结果    两个大体的环境相似,则这两个大体的环境间就会存在相同的匹配环境,即已经记录的环境,如果错过了一些已经匹配了子串,则会导致K值比实际的要小,即后面的匹配必须依赖前面的匹配结果*/
 }

上面代码解释:

1:j=0时,i和j都要相加并给next赋值

2:T[i] = T[j] ,i和j都要相加并给next赋值

如果上面两个都不满足,则需要将 j 往前指向,那么问题就来了,为什么不直接 j = 1,而需要将 next[j]的值赋给 j 呢,其实就如我在代码中所讲,不妨也举个栗子说明一下。

其实可以总结为一下几点,K的目的是定位偏移量的index,失配项的前面有几个与模式项的头部相等的,K就为这些数加1,而其实这几个数,正是我们所要跳过的。

KMP算法的劣势,其实,从寻找K的过程中我们就可以看出,KMP算法重度依赖模式列中存在重复的子串,不然~~~~~~

时间: 2024-12-18 01:30:38

浅谈数据结构之KMP(串中的模式匹配算法)的相关文章

浅谈数据结构-二叉树

浅谈数据结构-二叉树 二叉树是树的特殊一种,具有如下特点:1.每个结点最多有两颗子树,结点的度最大为2.2.左子树和右子树是有顺序的,次序不能颠倒.3.即使某结点只有一个子树,也要区分左右子树. 一.特殊的二叉树及特点 1.斜树 所有的结点都只有左子树(左斜树),或者只有右子树(右斜树).这就是斜树,应用较少 2.满二叉树 所有的分支结点都存在左子树和右子树,并且所有的叶子结点都在同一层上,这样就是满二叉树.就是完美圆满的意思,关键在于树的平衡. 根据满二叉树的定义,得到其特点为: 叶子只能出现

浅谈设计模式的学习(中)

在<浅谈设计模式的学习(上)>中我说到了设计模式的基石-----抽象思维.为什么需要抽象思维呢?因为越抽象就越不容易出错,就像有些领导人说话:坚持改革开放.但怎么算坚持改革开放呢,没有具体的标准,因事而异,所以就不容易违背这个坚持改革开放的原则了. 3.学习设计模式,要保持抽象的思维     什么是抽象思维呢?真的不好说,抽象的东西往往难以说明白,听了也难以搞明白,还是通过具体的例子来说吧 有这么一个学生请假的场景,如果请假时间一天以内则有班长批准就可以了,三天以内则需要老师批准,超过三天就得

转:浅谈CSS在前端优化中一些值得注意的关键点

前端优化工作中要考虑的元素多种多样,而合理地使用CSS脚本可以在很大程度上优化页面的加载性能,以下我们就来浅谈CSS在前端优化中一些值得注意的关键点: 当谈到Web的“高性能”时,很多人想到的是页面加载时间,但其实性能不仅仅是指加载时间,还包括浏览器性能.网络性能.开发效率.在Web前端开发中,性能是一个非常重要的需要考虑的点.本文将介绍一些开发原则和性能准则,这些都是提高Web前端性能的基础. 1. 开发原则 1.1 编写符合当代浏览器性能的代码如果想提高前端性能,就必须理解浏览器的工作原理,

浅谈logo在PPT设计中的运用

在工业设计范畴,特别是产品设计中常常会提到“形式跟随功用”,也就是说产品的外型是树立在产品功用的根底之上的,同样道理,在PPT设计中则演化为“形式跟随内容”,就是说页面的美化设计是为了更好的将内容向观众传达. 为此我们总结了PPT设计的三个原则,即“图示化”,“图标化”,“图表化” 以“图标化”为例,所谓图标,就是具有指代意义的图形符号,具有高度浓缩并快捷传达信息.便于记忆的特性.应用范围很广,软硬件网页社交场所公共场所无所不在,例如各种交通标志…… 在用户界面设计范畴中则为图标的形式,包括程序

浅谈加速因子在策略中的意义

他站链接:浅谈加速因子在策略中的意义 NO:01没有完美的交易系统,但是却有完美的交易哲学.交易哲学.交易策略和资金管理三者缺一不可,才能构成正期望的交易系统.投机依赖价格的移动获得盈利(低买高卖或高买更高卖).在上升或下降趋势中,价格虽然在整体上朝着一个方向移动,但中间也会有短暂的反方向移动.而在横盘过程中,价格的移动方向则显得相对"随机"一些. NO:02关于价格的移动,可以类比物理学中的运动.其中包括:位移距离.时间.速度等.价格的位移相对于时间的比率就是价格的速度.除了速度之外

浅谈MVC、MVP、MVVM架构模式的区别和联系

浅谈MVC.MVP.MVVM架构模式的区别和联系 学习了:http://www.cnblogs.com/guwei4037/p/5591183.html http://blog.csdn.net/ttf1993/article/details/49405329 MVC: Model->View->Controller->Model MVP: View <--> Presenter <--> Model MVVM: View (ViewController)<

浅谈数据结构-树

树是一种数据结构,其中一个元素可以有两个或者多个数据元素,具有一对多的特点,用树结构来存储文件. 树的概念 结点的度:子结点的个数.例如结点1中有3个子结点,结点1的度是3. 树的度:树的度等于所有结点度中度最高的值.结点最高的度为3,树的度为3. 叶子结点:度为0的结点,即没有子结点的结点.例如:上图中3,5,6,7,9,10. 分支结点:除了叶子结点以外的结点,即度不为0的结点.例如:上面树的分支结点为1,2,4,8. 内部结点:除了根结点以及叶子结点或在分支结点的基础之上在去掉根结点.例如

浅谈数据结构-字符串匹配

模式匹配是数据结构中字符串的一种基本运算,给定一个子串,要求在某个字符串中找出与该子串相同的所有子串,这就是模式匹配. 假设P是给定的子串,T是待查找的字符串,要求从T中找出与P相同的所有子串,这个问题成为模式匹配问题.P称为模式,T称为目标.如果T中存在一个或多个模式为P的子串,就给出该子串在T中的位置,称为匹配成功:否则匹配失败. 蛮力算法(BF算法) 算法思想 从目标串T的的第一个字符起与模式串P的第一个字符比较. 若相等,则继续对字符进行后续的比较:否则目标串从第二个字符起与模式串的第一

串的应用--模式匹配算法

朴素的模式匹配算法 子串的定位操作通常称为串的模式匹配,是串中最重要的操作之一. 假设要从下面的主串S="goodgoogle"中,找到T="google"这个子串的位置,通常通过以下几个步骤: 主串S第一位开始,S和T前三个字母都匹配成功,但S第四个字母是d而T的是g.第一位匹配失败. 主串S第二位开始,主串S首字母是o,要匹配的T首字母是g,匹配失败. 主串S第三位开始,主串首字母是o,要匹配的T首字母是g,匹配失败. 主串S第四位开始,主串S首字母是d,要匹配