算法-KMP串匹配

字符串匹配

http://www.cnblogs.com/jingmoxukong/p/4343770.html

模式匹配是数据结构中字符串的一种基本运算,给定一个子串,要求在某个字符串中找出与该子串相同的所有子串,这就是模式匹配

假设P是给定的子串,T是待查找的字符串,要求从T中找出与P相同的所有子串,这个问题成为模式匹配问题。P称为模式,T称为目标。如果T中存在一个或多个模式为P的子串,就给出该子串在T中的位置,称为匹配成功;否则匹配失败。

KMP 算法

http://kb.cnblogs.com/page/176818/

字符串匹配是计算机的基本任务之一。

  举例来说,有一个字符串"BBC ABCDAB ABCDABCDABDE",我想知道,里面是否包含另一个字符串"ABCDABD"?

许多算法可以完成这个任务,Knuth-Morris-Pratt算法(简称KMP)是最常用的之一。它以三个发明者命名,起头的那个K就是著名科学家Donald Knuth。

----- 我的理解 ----

此算法的思想是, 当出现模式匹配未完全时候, 利用已经匹配的部分模式中的字符串(蕴含的)信息, 尽量将模式匹配的开始位置向右边移动。

----- 已经匹配的部分模式中字符串蕴含的信息 ----

一般将这个信息叫部分匹配表, 所谓部分, 就是未完全匹配模式字符串的含义, 未匹配命中, 只匹配了模式串的前面一部分子串。

正如上面所说,部分匹配串, 就是 模式串的一个前缀,

如果此部分匹配串中, 如果存在 一个子串, 此子串既是部分模式串的 前缀, 同时也是 部分模式串的 后缀, 同时这个子串是 同类子串中最长的一个, 则称 此子串为 此部分匹配串的 最大前缀。

当模式匹配过程发生字符匹配失败, 则将 模式字符串 对应主串起始位置(A), 移动到 模式字符串中已经部分匹配子串中 最大前缀的对应的后缀开始 位置(B), 并从失败的位置(C)继续开始比对。

主串中从A到B的位置(不包括B), 对于模式字符串, 已经不需要再进行比较, 因为 这些位置, 按照最大前缀的定义,不能满足部分匹配串的 最大前缀的, 更何谈匹配整个模式串!

主串中从B到C的位置(不包括C), 对于模式字符串, 对于B位置, B-C正好对应 部分匹配字符串的 最大前缀, 所以也不需要 进行匹配。

--------  阮一峰 实例化解释 部分匹配表的生成 --------------

下面介绍《部分匹配表》是如何产生的。

  首先,要了解两个概念:"前缀"和"后缀"。 "前缀"指除了最后一个字符以外,一个字符串的全部头部组合;"后缀"指除了第一个字符以外,一个字符串的全部尾部组合。

  "部分匹配值"就是"前缀"和"后缀"的最长的共有元素的长度。以"ABCDABD"为例,

  - "A"的前缀和后缀都为空集,共有元素的长度为0;

  - "AB"的前缀为[A],后缀为[B],共有元素的长度为0;

  - "ABC"的前缀为[A, AB],后缀为[BC, C],共有元素的长度0;

  - "ABCD"的前缀为[A, AB, ABC],后缀为[BCD, CD, D],共有元素的长度为0;

  - "ABCDA"的前缀为[A, AB, ABC, ABCD],后缀为[BCDA, CDA, DA, A],共有元素为"A",长度为1;

  - "ABCDAB"的前缀为[A, AB, ABC, ABCD, ABCDA],后缀为[BCDAB, CDAB, DAB, AB, B],共有元素为"AB",长度为2;

  - "ABCDABD"的前缀为[A, AB, ABC, ABCD, ABCDA, ABCDAB],后缀为[BCDABD, CDABD, DABD, ABD, BD, D],共有元素的长度为0。

  

----- 理解 ------

如果按照这种实例所示, 采用列举比对, 计算最大前缀, 则会导致很耗时, 属于穷举法。

模式字符串 为 s[1, n]

对于部分匹配子串 s[1, m], 其中 m = [1, n]

for i=m-1,1,-1 do

if compare(s[1, i],  s[m-i+1,m]) == 0 then

// find max prefix len

end

end

最坏时间为  n*n

------- 使用归纳法计算 部分匹配表 则更加有效率。--------

假设 s[1, q] 的 最大前缀为 k == f(q), 则 s[1, k] == s[q-k+1, q]

则 对于 s[1, q+1], 我们来求 其最大前缀f(q+1)

if s[q+1] == s[k+1] then

f(q+1) = f(q) + 1 = k + 1

else

//s[1, k] 是不行了, 继续从s[1, k]中找到其最大前缀, 用此最大前缀后的字符与s[q+1]比较

if s[q+1] == s[f(k)+1] then

f(q+1) = f(k) + 1 = f(f(q)) + 1

else

// s[1, f(k)] 也不行了, 。。。。

end

end

C代码实现

https://github.com/fanqingsong/code-snippet/blob/master/C/kmp_string_matcher/kmp_string_matcher.c

E_BOOL_TYPE string_is_head_of_string(char* headStr, char* string, int* pfailPos)
{
    char* pHeadStr = NULL;
    char* pString = NULL;
    char chHead = 0;
    char chString = 0;
    int index = 0;

    if (!headStr || !string)
    {
        MyPrintf("arg is null");
        return FALSE;
    }

    pHeadStr = headStr;
    pString = string;

    while( TRUE )
    {
        chHead = *pHeadStr;
        chString = *pString;

        // headStr is over, now result is true
        if ( chHead == 0 )
        {
            return TRUE;
        }

        // string is over firstly, return false
        if ( chString == 0 )
        {
            *pfailPos = index;
            return FALSE;
        }

        // headStr is not a head of string
        if ( chHead != chString )
        {
            *pfailPos = index;
            return FALSE;
        }

        pHeadStr++;
        pString++;

        index++;
    }
}

void calcPrefixlenByIndex(char* substr, int substrPrefix[], int iNum)
{
    int PrefixLen = 0;

MyPrintf("iNum = %d", iNum);

    if ( iNum == 0 )
    {
        substrPrefix[iNum] = 0;
    MyPrintf("iNum = %d substrPrefix[iNum]=%d", iNum, substrPrefix[iNum]);
        return;
    }

    // calc [0, iNum-1] string prefix len, saving to substrPrefix[iNum-1]
    calcPrefixlenByIndex(substr, substrPrefix, iNum-1);

    // according to [0, iNum-1] string prefix, we deduce [0, iNum] string prefix
    PrefixLen = substrPrefix[iNum-1];
    do
    {
        // if the char after the [0, iNum-1] string prefix is EQUAL to the char at substr[iNum],
        //  then the  the [0, iNum] string prefix len =  the [0, iNum-1] string prefix len + 1
        // PrefixLen+1-1 notation mean index from 0, while PrefixLen+1 mean index from 1
        if ( substr[PrefixLen+1-1] == substr[iNum] )
        {
            substrPrefix[iNum] = PrefixLen + 1;
            break;
        }
        // else calc from the prefix of the [0, iNum-1] string prefix
        else
        {
            PrefixLen = substrPrefix[PrefixLen];
        }
    }while ( PrefixLen > 0 );

    MyPrintf("iNum = %d substrPrefix[iNum]=%d", iNum, substrPrefix[iNum]);
}

void compute_string_prefix(char* substr, int substrPrefix[], int maxPrefixEleNum)
{
    int substrlen = 0;

    substrlen = strlen(substr);
    if (substrlen > maxPrefixEleNum)
    {
        return;
    }

    calcPrefixlenByIndex(substr, substrPrefix, substrlen-1);
}

#define MAX_PREFIX_ELE_NUM 1024

int kmp_matcher(char* string, char* substr)
{
    char* cursor = NULL;
    int index = 0;
    int subLen = 0;
    int stringLen = 0;
    int maxPos = 0;

    int substrPrefix[MAX_PREFIX_ELE_NUM] = {0};
    int failPos = 0;
    int partialMatchedPos = 0;
    int maxPrefixLen = 0;

    // pointer to the inner postion of cursor and substr
    char* pCursor = NULL;
    char* pSubstr = NULL;

    if (!string || !substr)
    {
        MyPrintf("arg is null");
    }

    subLen = strlen(substr);
    stringLen = strlen(string);
    maxPos = stringLen - subLen + 1;

    // substrPrefix is string prefix of substr
    //  scope : 1-substrlen
    //  the index i element is the max prefix length of substr[1, i]
    compute_string_prefix(substr, substrPrefix, MAX_PREFIX_ELE_NUM); 

    index = 0;
    maxPrefixLen = 0;
    while ( index < maxPos )
    {
        cursor = string + index;

        pCursor = cursor + maxPrefixLen;
        pSubstr = substr + maxPrefixLen;

        if ( string_is_head_of_string(pSubstr, pCursor, &failPos) )
        {
            return index;
        }
        else
        {
            // failPos scope: 0-substrlen-1
            // failPos is substr comparing char postion that do not match cursor string
            // then substr[0, partialMatchedPos] is the matched part
            partialMatchedPos = maxPrefixLen + failPos - 1;

            // substr[0] is not matched
            if ( failPos == 0 )
            {
                // string compare from next position
                index ++;

                // next comparation have not to consider prefix
                maxPrefixLen = 0;
            }
            else
            {
                // the max prefix length of partial matched string, ie substr[0, partialMatchedPos]
                maxPrefixLen = substrPrefix[partialMatchedPos];

                index += partialMatchedPos - maxPrefixLen;
            }
        }
    }

    return -1;
}

时间: 2024-10-28 23:07:52

算法-KMP串匹配的相关文章

KMP串匹配算法解析与优化

朴素串匹配算法说明 串匹配算法最常用的情形是从一篇文档中查找指定文本.需要查找的文本叫做模式串,需要从中查找模式串的串暂且叫做查找串吧. 为了更好理解KMP算法,我们先这样看待一下朴素匹配算法吧.朴素串匹配算法是这样的,当模式串的某一位置失配时将失配位置的上一位置与查找串的该位置对齐再从头开始比较模式串的每一个位置.如下图所示. KMP串匹配算法解析 KMP串匹配算法是Knuth-Morris-Pratt算法的简称,KMP算法的思想就是当模式串的某一位置失配时,能不能将更前面的位置与查找串的该位

算法——字符串匹配之KMP算法

前言 本节介绍Knuth-Morris-Pratt字符串匹配算法(简称KMP算法).该算法最主要是构造出模式串pat的前缀和后缀的最大相同字符串长度数组next,和前面介绍的<朴素字符串匹配算法>不同,朴素算法是当遇到不匹配字符时,向后移动一位继续匹配,而KMP算法是当遇到不匹配字符时,不是简单的向后移一位字符,而是根据前面已匹配的字符数和模式串前缀和后缀的最大相同字符串长度数组next的元素来确定向后移动的位数,所以KMP算法的时间复杂度比朴素算法的要少,并且是线性时间复杂度,即预处理时间复

[C++] [算法] KMP算法

在虚拟机上测评了下MySQL 和 PostgreSQL 的各种LOAD FILE方式以及时间. 因为是虚拟机上的测评,所以时间只做参考,不要太较真, 看看就好了.MySQL 工具:    1. 自带mysqlimport工具.    2. 命令行 load data infile ...    3. 利用mysql-connector-python Driver来写的脚本. PostgreSQL 工具:    1. pgloader 第三方工具.    2. 命令行 copy ... from

字符串查找算法-KMP

/** *    KMP algorithm is a famous way to find a substring from a text. To understand its' capacity, we should acquaint onself with the normal algorithm. */ /** *    simple algorithm * *    workflow: *        (say,  @ct means for currently position o

菜鸟学算法-KMP算法

一. KMP算法 KMP算法是一种改进的字符串匹配算法,由D.E.Knuth与V.R.Pratt和J.H.Morris同时发现,简称KMP算法.KMP算法的关键是利用匹配失败后的信息,尽量减少模式串与主串的匹配次数以达到快速匹配的目的.具体实现就是实现一个next()函数,函数本身包含了模式串的局部匹配信息. 二. KMP算法的意义 先举一个简单模式匹配的例子,给定字符串T=“abababca”,S=“bacbababaabcbab”,判断T是否是S的子串,如果用暴力扫描的话,就是拿着T字符串从

KMP算法 KMP模式匹配 二(串)

B - KMP模式匹配 二(串) Crawling in process... Crawling failed Time Limit:1000MS     Memory Limit:131072KB     64bit IO Format:%lld & %llu Description 输入一个主串和一个子串,用KMP进行匹配,问进行几趟匹配才成功,若没成功,则输出0 Input 输入一个主串和一个子串 Output 匹配的趟数 Sample Input ababcabcacbab abcac

KMP算法 KMP模式匹配 一(串)

A - KMP模式匹配 一(串) Crawling in process... Crawling failed Time Limit:1000MS     Memory Limit:131072KB     64bit IO Format:%lld & %llu Description 求子串的next值,用next数组存放,全部输出 Input 输入一个字符串 Output 输出所有next值 Sample Input abaabcac Sample Output 0 1 1 2 2 3 1

kmp算法模式串匹配

转载:字符串匹配 kmp算法

KMP算法---字符串匹配

算法细节详见点击打开链接和点击打开链接 #include <stdio.h> #include <stdlib.h> #define N 7 #define M 15 void showpset(int* a); void cal_pset(char* a, int* p,int n); int KMP(char* a,char* b,int* P); int main(void) { char a[M]={'a','b','a','c','a','b','a','a','b','