C++ SUNDY算法(BM算法的改进)

字符串查找算法中,最著名的两个是KMP算法Knuth-Morris-Pratt)和BM算法(Boyer-Moore)。两个算法在最坏情

况下均具有线性的查找时间。BM算法往往比KMP算法快上3-5倍。但是BM算法还不是最快的算法,这里介绍一种比BM算法更快一些的查找算法。

例如我们要在"substringsearchingalgorithm"查找"search"

第一步,把子串与文本左边对齐:

s u
b s t r i n g s e a r c h i n g a l g o r i t h m

s e a r c h

结果在第二个字符处发现不匹配,于是要把子串往后移动。

但是该移动多少呢?

最简单的做法是移动一个字符位置;

KMP是利用已经匹配部分的信息来移动;

BM算法是做反向比较,并根据已经匹配的部分来确定移动量。

而SUNDY算法是看紧跟在当前子串之后的那个字符(第一个字符串中的‘i‘)。

显然,不管移动多少,这个字符是肯定要参加下一步的比较的,也就是说,如果下一步匹配到了,这个字符必须在子串内。

所以,可以移动子串,使子串中的最右边的这个字符与它对齐。

现在子串‘search‘中并不存在‘i‘,则说明可

以直接跳过一大片,从‘i‘之后的那个字符开始作下一步的比较,如下:

s u b s t r i n g s e a
r c h i n g a l g o r i t h m


e a r c h

比较的结果,第一个字符就不匹配,再看子串后面的那个字符,是‘r‘,

它在子串中出现在倒数第三位,于是把子串向后移动三位,使两个‘r‘对齐,如下:

s u b s t r i n g  s e a r c h i n g a l g o r i t h m

s e a r c h

这次匹配成功了!回顾整个过程,我们仅仅移动了两次子串就找到了匹配位置,

可以证明,用这个算法,每一步的移动量都比BM算法要大,所以肯定比BM算法更快。

下面是实现代码:

#include <iostream>
#include <string>
using namespace std;

void SUNDAY(char *text, char *patt)
{
	register size_t temp[256];
	size_t *shift = temp;
	size_t i, patt_size = strlen(patt), text_size = strlen(text);
	cout << "size : " << patt_size << endl;
	for( i=0; i < 256; i++ )
	{
		*(shift+i) = patt_size+1;
	}
	for( i=0; i < patt_size; i++ )
	{
		*(shift + (unsigned char)(*(patt+i))) = patt_size-i;
	}
	//shift['s']=6 步,shitf['e']=5 以此类推
	size_t limit = text_size - patt_size+1;
	for(i=0; i < limit; i += shift[ text[i+patt_size] ])
	{
		if( text[i] == *patt )
		{
			char *match_text = text + i + 1;
			size_t match_size = 1;
			do
			{
				// 输出所有匹配的位置
				if( match_size == patt_size )
				{
					cout << "the NO. is " << i << endl;
				}
			}while((*match_text++) == patt[match_size++]);
		}
	}
	cout << endl;
}
int main(void)
{
	char *text = new char[100];
	text = "substring searching algorithm search";
	char *patt = new char[10];
	patt = "search";
	SUNDAY(text, patt);
	return 0;
}

时间: 2024-11-03 05:23:21

C++ SUNDY算法(BM算法的改进)的相关文章

BM算法详解

BM算法 后缀匹配,是指模式串的比较从右到左,模式串的移动也是从左到右的匹配过程,经典的BM算法其实是对后缀蛮力匹配算法的改进.为了实现更快移动模式串,BM算法定义了两个规则,好后缀规则和坏字符规则,如下图可以清晰的看出他们的含义.利用好后缀和坏字符可以大大加快模式串的移动距离,不是简单的++j,而是j+=max (shift(好后缀), shift(坏字符)) 先来看如何根据坏字符来移动模式串,shift(坏字符)分为两种情况: 坏字符没出现在模式串中,这时可以把模式串移动到坏字符的下一个字符

BM算法详解(转)

1977 年,Robert S.Boyer和J Strother Moore提出了另一种在O(n)时间复杂度内,完成字符串匹配的算法,其在绝大多数场合的性能表现,比KMP算法还要出色,下面我们就来详细了解一下这 一出色的单模式匹配算法,在此之前推荐读者读一下我的另一篇文章<KMP算法详解>,对于透彻理解BM算法大有裨益. 在讲解Boyer-Moore算法之前,我们还是要提一提KMP算法的老例子,当模式串与目标串匹配至如下位置时:  1  2  3  4  5  6  7  8  9 10 11

[聚类算法]K-means优缺点及其改进

[聚类算法]K-means优缺点及其改进 [转]:http://blog.csdn.net/u010536377/article/details/50884416 K-means聚类小述 大家接触的第一个聚类方法,十有八九都是K-means聚类啦.该算法十分容易理解,也很容易实现.其实几乎所有的机器学习和数据挖掘算法都有其优点和缺点.那么K-means的缺点是什么呢? 总结为下: (1)对于离群点和孤立点敏感: (2)k值选择; (3)初始聚类中心的选择: (4)只能发现球状簇. 对于这4点呢的

算法——字符串匹配之BM算法

前言 Boyer-Moore算法是一种基于后缀匹配的模式串匹配算法(简称BM算法),后缀匹配就是模式串从右到左开始比较,但模式串的移动依然是从左到右的.在实践中,BM算法效率高于前面介绍的<KMP算法>,算法分为两个阶段:预处理阶段和搜索阶段:预处理阶段时间和空间复杂度都是是O(m+sigma),sigma是字符集大小,一般为256:在最坏的情况下算法时间复杂度是O(m*n):在最好的情况下达到O(n/m). BM算法实现 BM算法预处理过程 BM算法有两个规则分别为坏字符规则(Bad Cha

经典的BM算法

KMP的匹配是从模式串的开头开始匹配的,而1977年,德克萨斯大学的Robert S. Boyer教授和J Strother Moore教授发明了一种新的字符串匹配算法:Boyer-Moore算法,简称BM算法.该算法从模式串的尾部开始匹配,且拥有在最坏情况下O(N)的时间复杂度.在实践中,比KMP算法的实际效能高. BM算法定义了两个规则: 坏字符规则:当文本串中的某个字符跟模式串的某个字符不匹配时,我们称文本串中的这个失配字符为坏字符,此时模式串需要向右移动,移动的位数 = 坏字符在模式串中

Boyer-Moore(BM)算法,文本查找,字符串匹配问题

KMP算法的时间复杂度是O(m + n),而Boyer-Moore算法的时间复杂度是O(n/m).文本查找中“ctrl + f”一般就是采用的BM算法. Boyer-Moore算法的关键点: 从右遍历,如果有txt里面的i+j元素和pat里面的j元素不一致,调整.根据right[]调整,right[]类似与KMP算法里面的nextval.skip = j - right[txt.charat(i+j)]; if(skip < 1) skip = 1;  i+=skip; 即找txt里面的第i+j

BM算法--串匹配

BM(Boyer-Moore)算法,后缀匹配,是指模式串的比较从右到左,模式串的移动也是从左到右的匹配过程,一般情况比KMP算法要快.时间复杂度O(m/n) C++描述(教师版) int BM(char S[],char T[], int n, int m) { //主串长度为n,模式串长度为m,主串和模式串的数组下标从1开始 int i=m; int j; while(i<=n){ j=m; while(j>0&&S[i]==T[j]){ j--; i--; } if(j==

字符串匹配——BM算法

BM算法通过Java语言实现. public class BFMatching { public static void main(String[] args) { long startTime; long endTime; long durationTime; startTime = System.nanoTime(); BM(); endTime = System.nanoTime(); durationTime = endTime - startTime; System.out.print

Horspool和BM算法解析

最近算法中学到了Horspool,KMP,BM三种算法.接下来给大家做个分享. Horspool算法: 算法思路: 1.分为匹配串,原串 2.从右往左依次匹配: 一旦遇到不匹配的,原串相对于匹配串 移动table[i]个字符               3.table[]由原串每个字符索引到原串每个字符相对于匹配串最右边一位的距离 移动规律: t(c) = {模式的长度m (如果c不包括在模式的前m-1个字符中) 模式前m-1个字符中最右边的c到模式最后一个字符的距离 (其他情况)