浅谈后缀自动机SAM

一下是蒟蒻的个人想法,并不很严谨,仅供参考,如有缺误,敬请提出

参考资料:

陈立杰原版课件

litble

某大神

某大神

其实课件讲得最详实了

有限状态自动机

我们要学后缀自动机,我们先来了解一下自动机到底是什么。【虽说以前也学过AC自动机,只是当一个名字罢了】

有限自动机的功能是识别字符串,作用各不相同

如果自动机A能识别串s,那么A(s) = true

自动机有一个初始状态,从初始状态出发能到达多个状态。到达终止状态表示字符串识别

后缀自动机SAM

我们略去建机原理的分析和建机过程,具体原理建议看陈立杰神牛的课件,建机过程为了简化可以看litble的

一些性质:

①后缀自动机能识别对应串的所有后缀,且状态数最少【最简状态】

②从初始状态出发,每一种走法唯一对应一种子串

【也就是说一个节点往后有几种走法,往后就有几种子串】

③一个状态代表一个子串集合,该集合中的子串有着相同的右端点,且长度连续

④一个状态的pre指针指向的状态与该状态也有着相同的右端点,且长度最大值 = 该状态最小长度 - 1

由此可见pre是当前串的后缀

⑤一个状态表示子串的最大长度Max(u) = step[u],最小长度Min(u) = step[pre[u]] + 1【由④得】

⑥如果不同位置的相同子串需重复计算,则一个点表示子串的数量 = 其parent树中的叶子个数

⑦只有叶子节点表示的子串是不重复的

⑧后缀自动机是拓扑图,pre指针形成一棵树

⑨插入时第一个建的点都是主链上的点

⑩求点的拓扑序可以用step进行基数排序

一些作用:【大多与子串相关】

①求第K小子串

②求LCP【最长公共子串】

③求子串出现次数,最大次数等

④求某个位置为结尾最大匹配长度

⑤求不同子串数

还有很多。。。。。

蒟蒻见过的差不多这些

溜了溜了。。。

贴个模板

#include<iostream>
#include<cstdio>
#include<cstring>
#include<algorithm>
#define LL long long int
#define REP(i,n) for (int i = 1; i <= (n); i++)
#define Redge(u) for (int k = h[u]; k; k = ed[k].nxt)
using namespace std;
const int maxn = 2000005,maxm = 100005,INF = 1000000000;
inline int RD(){
    int out = 0,flag = 1; char c = getchar();
    while (c < 48 || c > 57) {if (c == ‘-‘) flag = -1; c = getchar();}
    while (c >= 48 && c <= 57) {out = (out << 1) + (out << 3) + c - ‘0‘; c = getchar();}
    return out * flag;
}
int ch[maxn][26],pre[maxn],step[maxn],n,cnt,last;
int b[maxn],sz[maxn],a[maxn];
LL ans = 0;
char s[maxn];
void ins(int u){
    int p = last,np = ++cnt;
    last = np; step[np] = step[p] + 1;
    while (p && !ch[p][u]) ch[p][u] = np,p = pre[p];
    if (!p) pre[np] = 1;
    else {
        int q = ch[p][u];
        if (step[q] == step[p] + 1) pre[np] = q;
        else {
            int nq = ++cnt; step[nq] = step[p] + 1;
            for (int i = 0; i < 26; i++) ch[nq][i] = ch[q][i];
            pre[nq] = pre[q]; pre[q] = pre[np] = nq;
            while (ch[p][u] == q) ch[p][u] = nq,p = pre[p];
        }
    }
    sz[np] = 1;
}
void solve(){
    REP(i,cnt) b[step[i]]++;
    REP(i,cnt) b[i] += b[i - 1];
    REP(i,cnt) a[b[step[i]]--] = i;
    for (int i = cnt; i; i--){
        sz[pre[a[i]]] += sz[a[i]];
        if (sz[a[i]] > 1) ans = max(ans,1ll * step[a[i]] * sz[a[i]]);
    }
}
int main(){
    scanf("%s",s + 1);
    cnt = last = 1; n = strlen(s + 1);
    for (int i = 1; i <= n; i++) ins(s[i] - ‘a‘);
    solve();
    printf("%lld",ans);
    return 0;
}

原文地址:https://www.cnblogs.com/Mychael/p/8312726.html

时间: 2024-11-19 01:06:34

浅谈后缀自动机SAM的相关文章

后缀自动机(SAM) 合集

先上模板 int len[maxn << 1],fa[maxn << 1],son[maxn << 1][maxc]; LL num[maxn << 1]; int size,last; void Init(){ size = last = 1; } void insert(char c){ int s = c - 'a'; int p = last,np = ++size;last = np; num[np] = 1; //主链结点出现次数 + 1 len

后缀自动机SAM

终于遇到了一道后缀数组不能过 一定要学SAM的题... (看了半个下午+半个上午) 现在总结一下(是给我自己总结..所以只总结了我觉得重要的 .. 看不太懂的话可以To   http://blog.csdn.net/clover_hxy/article/details/53758535  图文并茂 或者 去看更长更详细的陈立杰PPT   http://wenku.baidu.com/link?url=9YEHHchtr0vyGGDZAcsMYPI3l_Q82UNPuS4KqkfrlG_t5NFk

【文文殿下】后缀自动机(SAM)求最长公共子串的方法

首先,在A 串上建立一个SAM,然后用B串在上面跑.具体跑的方法是: 从根节点开始,建立一个指针 p ,指着B串的开头,同步移动指针,沿着SAM的边移动,如果可以移动(即存在边)那么万事皆好,直接len++就好,但是,如果无法继续转移(失配了),那么,我们考虑跳回其父节点,因为其父节点的Right集是当前状态的真超集,那么其父节点状态所代表的字符串的集合中的任意一个字符串,都是当前状态所代表的字符串集合中的正在匹配的字符串(会不会一定是最长串?)的后缀,所以,有一个贪心的思想:父节点状态中的最长

后缀自动机(SAM) :SPOJ LCS - Longest Common Substring

LCS - Longest Common Substring no tags A string is finite sequence of characters over a non-empty finite set Σ. In this problem, Σ is the set of lowercase letters. Substring, also called factor, is a consecutive sequence of characters occurrences at

后缀自动机(SAM)模板

1 struct SAM{ 2 int ch[maxn][26],fa[maxn],len[maxn],cnt,last; 3 void Init() 4 { 5 memset(ch,0,sizeof(ch)); 6 memset(fa,0,sizeof(fa)); 7 last=cnt=1; 8 } 9 void Add(int c) 10 { 11 int p=last,np=last=++cnt; 12 len[np]=len[p]+1; 13 while(!ch[p][c]&&p)

[hdu4436 str2int]后缀自动机SAM(或后缀数组SA)

题意:给n个数字串,求它们的所有不包含前导0的不同子串的值之和 思路:把数字串拼接在一起,构造SAM,然后以每个状态的长度len作为特征值从小到大排序,从前往后处理每个状态,相当于按拓扑序在图上合并计算答案. #include <bits/stdc++.h> using namespace std; #define X first #define Y second #define pb(x) push_back(x) #define mp(x, y) make_pair(x, y) #defi

后缀自动机(SAM):SPOJ Longest Common Substring II

Longest Common Substring II Time Limit: 2000ms Memory Limit: 262144KB A string is finite sequence of characters over a non-empty finite set Σ. In this problem, Σ is the set of lowercase letters. Substring, also called factor, is a consecutive sequenc

浅谈后缀数组

1. 概述 后缀数组是一种解决字符串问题的有力工具.相比于后缀树,它更易于实现且占用内存更少.在实际应用中,后缀数组经常用于解决字符串有关的复杂问题. 本文大部分内容摘自参考资料[1][2]. 2. 后缀数组 2.1   几个概念 (1)后缀数组SA 是一个一维数组,它保存1..n 的某个排列SA[1],SA[2],--,SA[n],并且保证Suffix(SA[i]) < Suffix(SA[i+1]),1≤i<n.也就是将S 的n 个后缀从小到大进行排序之后把排好序的后缀的开头位置顺次放入S

[bzoj2806][Ctsc2012]Cheat(后缀自动机(SAM)+二分答案+单调队列优化dp)

偷懒直接把bzoj的网页内容ctrlcv过来了 2806: [Ctsc2012]Cheat Time Limit: 20 Sec  Memory Limit: 256 MBSubmit: 1943  Solved: 1004[Submit][Status][Discuss] Description Input 第一行两个整数N,M表示待检查的作文数量,和小强的标准作文库的行数接下来M行的01串,表示标准作文库接下来N行的01串,表示N篇作文 Output N行,每行一个整数,表示这篇作文的Lo