【学时总结&模板时间】◆学时·10 & 模板·3◆ AC自动机

◇学时·10 & 模板·3◇ AC自动机

跟着高中上课……讲AC自动机的扩展运用。然而连KMP、trie字典树都不怎么会用的我一脸懵逼<(_ _)>

花一上午自学了一下AC自动机 QwQ


? Trie树

字典树的一种(听说还有其他字典树,不清楚)。每个节点代表一个字母,根节点相当于超级源点,根节点不表示字母。Trie树最大的特点是从根节点出发,沿着树边向下走,走过的节点会形成一个字符串。而一些节点是某一个单词的结尾,对于这种节点,我们一般会给它做一个标记(ovr)。

? 构建Trie树(Build)

根据Trie树的特点,最初的树是一个空集,只包含根节点。当我们要向树中插入一个单词str时,从根节点出发,如果根节点有表示str[0]的儿子,则移步到该儿子;否则新建立一个表示str[0]的儿子,再移步。以此类推,当我们要插入str[k]时,我们应该在第(k+1)层的某一个节点now(根节点为第一层),如果节点now有表示str[k]的儿子,则移步,否则先创建表示str[k]的儿子,再移步。直到将整个单词遍历完才结束。假设我们结束时的节点在now,那么ovr可以做两种基本的标记:① 该节点是多少个单词的结尾;② 该节点是哪一个单词的结尾……当然如果题目有一些奇怪的要求的话可以用ovr存储一些奇怪的东西,甚至多定义几个ovr也可以。

void Build(string str,int id){
	int len=str.length(),now=0; //当前节点是now,trie[0]是根节点
	for(int i=0;i<len;i++){
		if(!trie[now].son[str[i]-‘a‘])
			trie[now].son[str[i]-‘a‘]=++cnt; //cnt类似于指针,用于新建节点,(cnt+1)指向最近的一个空节点
		now=trie[now].son[str[i]-‘a‘]; //移步
	}
	trie[now].ovr=id; //做标记,这里是存储的trie[now]是哪一个单词的结尾
}

? 与AC自动机的关系

AC自动机是建立在Trie树上的,只是围绕KMP的fail函数增添了一些边。


? KMP

一种字符串匹配算法,在朴素的字符串匹配算法的基础上进行了可观的优化。若要在字符串A里查找字符串B,则称A为“主串”,B为“模式串”,当我们尝试一次匹配时发现匹配失败,则称为“失配”。

匹配时有两个指针,i表示从主串的第i个位置开始,j表示模式串匹配到了第j个位置。当朴素算法在主串第i个位置失配时,j会回到0,而i就+1,即从主串下一个位置继续从模式串的第一个位置开始匹配,这样会造成一种浪费——下一次匹配并没有利用到之前失配的匹配的已经匹配好的信息。

而KMP算法对其进行了优化。

? KMP算法的原理

KMP算法认为“不需要将模式串一个位置一个位置地向右滑动”,例如:

当模式串"abca"在主串"abcd"失配后,我们没有必要将i++,因为主串的下一个位置不是‘a‘,逐步滑动不一定会匹配。而KMP算法就会在发现失配后,直接将主串向右移动到可能匹配的最远位置!

当模式串的某一个前缀是模式串的真子串时,我们在失配后可以直接将模式串移动到该位置。

(不知道怎么解释了,看上面的3张图片吧)

? Fail函数

为了实现主串失配时指针不回溯,只调整模式串指针j,使模式串向右尽可能远地滑动,定义失配函数Fail(j),表示当模式串中第j个字符与主串中Si失配时,在模式串中可能和主串中Si匹配的字符的位置。

转移式则是:fail[i]=①-1(i=0);②max{ k|0<k<j, 且p0 …pk-1=pj-k+1 …pj-1 };③0(其他情况)。


? AC自动机

? 插入单词和Trie树是一样的( ̄▽ ̄)"

? 节点的结束单词统计也和Trie树是一样的

? 获取Fail函数

这里是用BFS获取的。当单词在字典树的第二层就失配即在第一个字符就失配时,fail一定是0。也就是说第二层节点的fail都指向根节点。我们将第一层的所有节点都push进队列里,然后如果节点u本来有"a"+i儿子v,则将v的fail指向u的fail的"a"+i儿子,否则直接将v指向u的fail的"a"+i儿子。

void GetFail(){
	queue< int > que;
	for(int i=0;i<26;i++) //遍历第二层
		if(trie[0].son[i])
			trie[trie[0].son[i]].fail=0,
			que.push(trie[0].son[i]);
	while(!que.empty()){
		int u=que.front();que.pop();
		for(int i=0;i<26;i++) //找儿子节点
			if(trie[u].son[i]){ //有表示"a"+i的儿子
				trie[trie[u].son[i]].fail=trie[trie[u].fail].son[i];
				//指向父亲的fail的"a"+i儿子
				que.push(trie[u].son[i]);
			}
			else
				trie[u].son[i]=trie[trie[u].fail].son[i];
				//直接将儿子指向父亲fail的"a"+i儿子
	}
}

? 主串上的递推

设now是当前所处的节点。从根节点开始则now的初始值为0。从头到尾枚举主串字符str[i],先将now赋值为now的str[i]儿子。再沿着now的fail指针一直回溯到根节点,可以实现遍历str[0~i]的每一个后缀。对于str的每一个前缀都求出全部后缀,就相当于求出了str的全部子串。

根据题目要求统计答案。

void ACQuery(string str){
	int len=str.length();
	int now=0;
	for(int i=0;i<len;i++){
		now=trie[now].son[str[i]-‘a‘]; //移动now
		for(int j=now;j;j=trie[j].fail) //按fail指针回溯
			ans[trie[j].ovr].num++; //统计答案
	}
}

The End

Thanks for reading!

- Lucky_Glass

(Tab:如果我有没讲清楚的地方可以直接在邮箱[email protected] email我,在周末我会尽量解答并完善博客~)

原文地址:https://www.cnblogs.com/LuckyGlass-blog/p/9829574.html

时间: 2024-11-08 07:47:11

【学时总结&模板时间】◆学时·10 & 模板·3◆ AC自动机的相关文章

luogu P3808 【模板】AC自动机(简单版)

二次联通门 : luogu P3808 [模板]AC自动机(简单版) /* luogu P3808 [模板]AC自动机(简单版) 手速越来越快了 10分钟一个AC自动机 一遍过编译 + 一边AC 感觉不错 我也就做做板子题了.. */ #include <iostream> #include <cstring> #include <cstdio> #include <queue> #define Max 1000009 void read (int &

HDU-2222 Keywords Search(AC自动机--模板题)

题目大意:统计一共出现了多少次模板串. 题目分析:AC自动机的模板题.不过这题有坑,相同的模板串不能只算一次. 代码如下: # include<iostream> # include<cstdio> # include<queue> # include<map> # include<string> # include<cstring> # include<algorithm> using namespace std; co

C++ chapter 10——模板

**模板的概念 函数模板 类模板 名空间** 一.模板的概念 C++的模板提供对逻辑结构相同的数据对象通用行为的定义.模板运算对象的类型不是实际的数据类型,而是一种参数化的类型. 一个带类型参数的函数称为函数模板,一个带类型参数的类称为类模板. 二.函数模板 1.函数模板的概念 函数模板的基本原理是通过数据类型的参数化,将一组算法相同但所处理数据类型不同的重载函数凝练成一个函数模板.编译时,再由编译器按照函数模板自动生成针对不同数据类型的重载函数定义代码. 使用函数模板.对于函数模板,数据类型本

NYOJ 1085 数单词 (AC自动机模板题)

数单词 时间限制:1000 ms  |  内存限制:65535 KB 难度:4 描述 为了能够顺利通过英语四六级考试,现在大家每天早上都会早起读英语. LYH本来以为自己在6月份的考试中可以通过六级,可是没想到,成绩出来以后,居然没有通过.所以他不得不付出更多的时间来学习英语. 要想通过六级,最基本的要求就是词汇量.为了能够更快的记住一些陌生单词,LYH有时会找一些英语文章来读. 今天早上,LYH又找了一篇文章.读之前,他突然萌生出一个想法:文章中哪些单词出现的次数最多呢? 输入 第一行输入一个

Django——模板层(template)(模板语法、自定义模板过滤器及标签、模板继承)

阅读目录(Content) 模板语法之变量 模板之过滤器 default length filesizeformat date slice truncatechars safe 模板之标签 自定义标签和过滤器 模板继承 (extend) 模板语法之include 前言:当我们想在页面上给客户端返回一个当前时间,一些初学者可能会很自然的想到用占位符,字符串拼接来达到我们想要的效果,但是这样做会有一个问题,HTML被直接硬编码在 Python代码之中. 1 2 3 4 def current_dat

LA 4670 出现次数最多的子串 (AC自动机模板题)

Dominating Patterns Time Limit:3000MS   Memory Limit:Unknown   64bit IO Format:%lld & %llu [Submit]  [Go Back]  [Status] Description The archaeologists are going to decipher a very mysterious ``language". Now, they know many language patterns; ea

模板类的约束模板友元函数:template friend functions

本来这篇博客是不打算写的,内容不是很难,对于我自己来讲,更多的是为了突出细节. 所谓template friend functions,就是使友元函数本身成为模板.基本步骤:1,在类定义的前面声明每个模板函数.eg:template <typename T> void counts(); template <typename T> void report<>(T &);2,在类声明中再次将模板声明为友元. template <typename TT>

C++模板引出的标准模板库-----&gt;初涉

C++中模板,是相当重要的一部分,前面提到过一些基础,关于模板中需要注意的问题,会在最近整理出来,今天想说的,是由模板引出的标准模板库. 当初经常会被推荐看<STL源码剖析>这本书,听说很厉害,是C++高手都需要走过的路,可一直都不知道STL是什么,也一直忘记去查,今天整理出来的一些东西,最起码可以让未了解过这方面的童鞋认识一下. C++标准模板库,即STL:Standard Template Lib,STL的产生,是必然的.在长期的编码过程中,一些程序员发现,有一些代码经常用到,而且需求特别

hdu5384 AC自动机模板题,统计模式串在给定串中出现的个数

http://acm.hdu.edu.cn/showproblem.php?pid=5384 Problem Description Danganronpa is a video game franchise created and developed by Spike Chunsoft, the series' name is compounded from the Japanese words for "bullet" (dangan) and "refutation&q