KMP算法心得

KMP算法是经典的字符串匹配算法，解决从字符串S，查找模式字符串M的问题。算法名称来源于发明者Knuth，Morris，Pratt。

假定从字符串S中查找M，S的长度ls，M的长度lm，且（ls > lm）。

朴素的字符串查找方法

从字符串S的第一个字符开始与M进行比较，如果匹配失败。从下一字符开始，重新比较。指导第 (ls - lm) 个字符。

这种方法容易想到并且容易理解，效率不高。

问题在于每次匹配失败后，移动的步伐固定为 1，其实步子可以迈得再大一些。

KMP的字符串查找方法

假定在模式串的连续字串M[0, i] 且 i < lm，已经成功匹配字符串S。但是不巧第 i+1 个字符失败了，怎么办？移动一个字符，重头再来？当然不好，那就是朴素路线了。我们能否从跌倒的地方继续走呢？

既然字串M[0 - i]已经匹配成功，那就从这个子串上做文章。举个栗子

S序号	j	j + 1	j + 2	j + 3	j + 4	j + 5	j+6	j + 7	。。。
S串	a	b	c	a	b	c	d	e	。。。
M串	a	b	c	a	b	d
M序号	0	1	2	3	4	5

此时匹配失败在M串的第5个字符，前4个字符已经匹配成功。

如果从跌倒的地方出发，则需要存在M[0, 4]的字串M[0, k] == S[j+4-k , j+4]。

由于M[0, 4] == S[j , j+4] 则有字串S[j+4-k, j+4] == M[4-k, 4]。综上有M[0, k] == M[4-k, 4]

如果这样的k不存在，那就老老实实的朴素了

从上面的表格可以直观的看出，下一次匹配只要把M串移动到 j + 3 位置，从 j+5 开始匹配就可以。很容易看出来在已经匹配成功的字串M[0 , 4]中有最长的子串（M[0 , 1] == M[3 , 4]），这个就是问题的关键。

因此KMP的核心部分就是计算模式串的子串的k

时间： 2024-12-23 20:47:11

KMP算法心得的相关文章

学习KMP算法的一点小心得

KMP算法应用于在一篇有n个字母的文档中查找某个想要查找的长度为m的单词:暴力枚举:从文档的前m个字母和单词对比,然后是第2到m+1个,然后是第3到m+2个:这样算法复杂度最坏就达到了O(m*n),对于大数据肯定不行.KMP算法的精髓即设法减少不必要的枚举次数,举个例子:比如已经匹配好了单词的前k-1个字母:但第k个字母无法匹配了:那么如果前k-1个字母中存在类似回文的情况(前i个字母组成的子串和后i个字母组成的子串相同),那么指针j就变成i(相当于整体往右移动),这样来达到减少枚举次数的目

我也学算法 - KMP算法

一直以来,对算法都是理论大于实际,甚至没有实际. 最近由于项目需要.从新了解了一下KMP算法.唉,讨厌这种被动的学习过程. 不过KMP算法还是很有意思的,用了两天的时间才总算是弄懂了.期间参考了网上的博文和数据结构.下面分享一下KMP算法的心得. KMP的总体思想是利用模式串本身的特性来优化匹配的步骤.如何利用自身的特性呢,KMP借助一个数组来实现,也就是大多数教程中提到的next数组.后面我会介绍next数组是如何构建和使用的. 前面提到KMP算法需要模式串满足一定的条件,那么这个条件是什么呢

子字符串查找之————关于KMP算法你不知道的事

写在前面: (阅读本文前需要了解KMP算法的基本思路.另外,本着大道至简的思想,本文的所有例子都会做从头到尾的讲解) 作者翻阅了大量网上现有的KMP算法博客,发现广为流传的竟然是一种不完整的KMP算法.即通过next数组来作为有限状态自动机,以此实现非匹配时的回退.这不失为一种好的方法. 但我们接下来要见识的是一种更好和更完整的方法————拥有完整DFA的KMP算法先列出本文要介绍的方法与一般方法对比下的几大优点: 在最坏情况下,对字符串的操作次数仅为一般做法的三分之二. 在所有情况下,对字符

hiho 1015 KMP算法 && CF 625 B. War of the Corporations

#1015 : KMP算法时间限制:1000ms 单点时限:1000ms 内存限制:256MB 描述小Hi和小Ho是一对好朋友,出生在信息化社会的他们对编程产生了莫大的兴趣,他们约定好互相帮助,在编程的学习道路上一同前进. 这一天,他们遇到了一只河蟹,于是河蟹就向小Hi和小Ho提出了那个经典的问题:“小Hi和小Ho,你们能不能够判断一段文字(原串)里面是不是存在那么一些……特殊……的文字(模式串)?” 小Hi和小Ho仔细思考了一下,觉得只能想到很简单的做法,但是又觉得既然河蟹先生这么说了,就

KMP算法详解

这几天学习kmp算法,解决字符串的匹配问题,开始的时候都是用到BF算法,(BF(Brute Force)算法是普通的模式匹配算法,BF算法的思想就是将目标串S的第一个字符与模式串T的第一个字符进行匹配,若相等,则继续比较S的第二个字符和 T的第二个字符;若不相等,则比较S的第二个字符和T的第一个字符,依次比较下去,直到得出最后的匹配结果.BF算法是一种蛮力算法.)虽然也能解决一些问题,但是这是常规思路,在内存大,数据量小,时间长的情况下,还能解决一些问题,但是如果遇到一些限制时间和内存的字符串问

KMP算法

1 /* next数组是KMP算法的关键,next数组的作用是:当模式串T和主串S失配 2 * ,next数组对应的元素指导应该用T串中的哪一个元素进行下一轮的匹配 3 * next数组和T串相关,和S串无关.KMP的关键是next数组的求法. 4 * 5 * ——————————————————————————————————————————————————————————————————— 6 * | T | 9 | a | b | a | b | a | a | a | b | a | 7

KMP算法解决字符串出现次数

比如主串为:"1001110110" 子串为:"11" 则出现位置分别为:3 4 7 //KMP算法 2015.6.7 #include<iostream> #include<stdlib.h> using namespace std; int main() { char *s = "1001110110"; char *p = "11"; int ar[20] = { 0 }; //next ar[0

串模式匹配之BF和KMP算法

本文简要谈一下串的模式匹配.主要阐述BF算法和KMP算法.力求讲的清楚又简洁. 一 BF算法核心思想是:对于主串s和模式串t,长度令为len1,len2, 依次遍历主串s,即第一次从位置0开始len2个字符是否与t对应的字符相等,如果完全相等,匹配成功:否则,从下个位置1开始,再次比较从1开始len2个字符是否与t对应的字符相等.... BF算法思路清晰简单,但是每次匹配不成功时都要回溯. 下面直接贴代码: int BF_Match(char *s, char *t) { int i=0,

跳跃表，字典树（单词查找树，Trie树），后缀树，KMP算法，AC 自动机相关算法原理详细汇总

第一部分:跳跃表本文将总结一种数据结构:跳跃表.前半部分跳跃表性质和操作的介绍直接摘自<让算法的效率跳起来--浅谈"跳跃表"的相关操作及其应用>上海市华东师范大学第二附属中学魏冉.之后将附上跳跃表的源代码,以及本人对其的了解.难免有错误之处,希望指正,共同进步.谢谢. 跳跃表(Skip List)是1987年才诞生的一种崭新的数据结构,它在进行查找.插入.删除等操作时的期望时间复杂度均为O(logn),有着近乎替代平衡树的本领.而且最重要的一点,就是它的编程复杂度较同类

猜你喜欢

sphinx续4-coreseek的工作原理

原文地址:http://blog.itpub.net/29806344/viewspace-1399621/ 在分析sphix原理之前,我先澄清一下为什么经常出现coreseek这个词? 因为sphi ...

分享作为程序猿的快乐

做为资深程序猿最大的快乐,就是苦中作乐.相信每个人在工作中总会碰到各种无语的场景,请大家在文章评论中留下最搞笑的瞬间,笑一笑十年少,笑多了,不怀孕. 1. 当客户要求兼容各大主流浏览器 2. 当我的代 ...

3.8 求二叉树中节点的最大距离

题目: 把二叉树看成一个图,父子节点之间的连线看成是双向的,定义"距离"为两个节点之间的边数. 求一颗二叉树中的两个节点之间的距离的最大值. 方法一:用书上写的方法: 代码: st ...

今天是入职第一个星期的最后一天,终于把项目做得差不多了,按时下班的感觉真不错.老规矩,先来个今天的工作总结. 今天的工作比较简单,主要是完成了商品添加静态页面的编写和公用全屏弹出层的编写,由于昨天手快 ...

老李分享：使用 Python 的 Socket 模块开发 UDP 扫描工具

poptest是业内唯一的测试开发工程师培训机构,测试开发工程师主要是为测试服务开发测试工具,在工作中要求你做网络级别的安全性测试,但是条件限制你无法用商业工具,所以自己动手要写测试工具,在这里我们在 ...

Hot code replace failed

今天在eclipses中修改代码,保存时会出时不时出现Hot code replace failed 对话框,谷歌提示是在debug模式下保存修改源代码会出现此类问题.确实,刚刚在用debug功能, ...

android 简单文件操作

1.布局 <LinearLayout xmlns:android="http://schemas.android.com/apk/res/android" xmlns:too ...

Windows Phone 十七、Socket

Socket 常用类型 StreamSocket:Socket对象 StreamSocketListener:Socket监听对象,适用于服务端服务端代码 1 <Grid x:Name=&qu ...

Ubuntu 14.02下编译及配置apache2.4(python CGI)

Ubuntu 14.02下编译及配置apache2.4(python CGI): # 下载apache2.4源码包 wget http://mirrors.cnnic.cn/apache//httpd ...

loadrunner controller：集合点策略

集合点只有在多用户并发运行的时候才能体现它的作用. Scenario ---> Rendezvous 打开集合点设置界面,如下图所示: 我们可以看到Vusers 列表框里有两个用户,这与我们设置 ...

NCPC 2015 October 10, 2015 Problem D

NCPC 2015Problem DDisastrous DowntimeProblem ID: downtimeClaus Rebler, cc-by-saYou’re investigating ...

NSRange

// // source == <a href="http://app.weibo.com/t/feed/2llosp" rel="nofollow ...

解决phpmyadmin导入大数据库出现一系列问题

在用phpmyadmin导入mysql数据库文件时,往往超过2M就会提示文件大,导入不成功.这时我们打开phpmyadmin-->libraries-->config.default.ph ...

C++类型转换符特点及区别

C++的类型转换符:static_cast.dynamic_cast.reinterpret_cast和const_cast 使用标准C++的类型转换符:static_cast.dynamic_cas ...

jedis源码阅读

package redis.clients.jedis; import java.util.ArrayList; import java.util.HashSet; import java.util. ...

Python 操作office 封装

#coding=gbk __author__ = 'libo' import os import time import datetime import traceback from win32com ...

17.Java重构(Eclipse)

1.定义在不改变代码行为情况下改善代码设计: 2.好处 1.改善设计: 2.让软件更加容易理解: 3.可以协助寻找bugs; 4.可以提升开发速度: 3.使用 3.1结构重构(改名字) 右键类文件, ...

hdu4686 简单的矩阵快速幂求前n项和

HDU4686 题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=4686 题意:题目说的很清楚了,英语不好的猜也该猜懂了,就是求一个表达式的前n项和,矩阵 ...

你所不知道的linux匿名管道知识

相信很多在linux平台工作的童鞋, 都很熟悉管道符 '|', 通过它, 我们能够很灵活的将几种不同的命令协同起来完成一件任务.就好像下面的命令: 不过这次咱们不来说这些用法, 而是来探讨一些更加有意 ...

Android自己定义视图（一）：带下划线的TextView

package com.francis.underlinetextviewtest; import android.content.Context; import android.content.re ...

专题

随机推荐

© 2025 憋错料 | info#biecuoliao.com | 10 q. 0.018 s.