[TyvjP1515] 子串统计 [luoguP2408] 不同子串个数（后缀数组）

Tyvj传送门

luogu传送门

经典题

统计一个字符串中不同子串的个数

一个字符串中的所有子串就是所有后缀的前缀

先求出后缀数组，求出后缀数组中相邻两后缀的 lcp

那么按照后缀数组中的顺序遍历求解

每一个后缀 suffix(sa[i]) 对于答案的贡献为 len - sa[i] - height[i]

len - sa[i] 为当前后缀的长度，也就是当前后缀所有前缀的个数（字符串从 0 开始）

height[i] 就是相邻两后缀 lcp，因为有可能会有相同前缀，而相同前缀在前面已经计算过了

为什么只需要 height 数组，而不用把任意两后缀的 lcp 求出来呢？

因为所有后缀已经按照字典序排序了，也就是说，sa[i] 和 sa[i - 1] 的 lcp 即为 sa[i] 和 sa[0 ~ i - 1] 的所有 lcp 的最大值。

——代码（Tyvj）

 1 #include <cstdio>
 2 #include <cstring>
 3 #include <iostream>
 4 #define N 200001
 5 #define LL long long
 6
 7 LL ans;
 8 int len, m = 256;
 9 int buc[N], x[N], y[N], sa[N], rank[N], height[N];
10 char s[N];
11
12 inline void build_sa()
13 {
14     int i, k, p;
15     for(i = 0; i < m; i++) buc[i] = 0;
16     for(i = 0; i < len; i++) buc[x[i] = s[i]]++;
17     for(i = 1; i < m; i++) buc[i] += buc[i - 1];
18     for(i = len - 1; i >= 0; i--) sa[--buc[x[i]]] = i;
19     for(k = 1; k <= len; k <<= 1)
20     {
21         p = 0;
22         for(i = len - 1; i >= len - k; i--) y[p++] = i;
23         for(i = 0; i < len; i++) if(sa[i] >= k) y[p++] = sa[i] - k;
24         for(i = 0; i < m; i++) buc[i] = 0;
25         for(i = 0; i < len; i++) buc[x[y[i]]]++;
26         for(i = 1; i < m; i++) buc[i] += buc[i - 1];
27         for(i = len - 1; i >= 0; i--) sa[--buc[x[y[i]]]] = y[i];
28         std::swap(x, y);
29         p = 1, x[sa[0]] = 0;
30         for(i = 1; i < len; i++)
31             x[sa[i]] = y[sa[i - 1]] == y[sa[i]] && y[sa[i - 1] + k] == y[sa[i] + k] ? p - 1 : p++;
32         if(p >= len) break;
33         m = p;
34     }
35 }
36
37 inline void build_height()
38 {
39     int i, j, k = 0;
40     for(i = 0; i < len; i++) rank[sa[i]] = i;
41     for(i = 0; i < len; i++)
42     {
43         if(!rank[i]) continue;
44         if(k) k--;
45         j = sa[rank[i] - 1];
46         while(s[i + k] == s[j + k] && i + k < len && j + k < len) k++;
47         height[rank[i]] = k;
48     }
49 }
50
51 int main()
52 {
53     int i;
54     scanf("%d", &len);
55     getchar();
56     for(i = 0; i < len; i++)
57     {
58         s[i] = getchar();
59         if((i + 1) % 80 == 0) getchar();
60     }
61     build_sa();
62     build_height();
63     for(i = 0; i < len; i++) ans += (LL)(len - sa[i] - height[i]);
64     printf("%lld\n", ans);
65     return 0;
66 }

洛谷那题好像数据有点问题。

时间： 2025-01-01 11:51:11

[TyvjP1515] 子串统计 [luoguP2408] 不同子串个数（后缀数组）的相关文章

POJ 3415 Common Substrings(长度不小于k 的公共子串的个数--后缀数组+单调栈优化)

题意:给定两个字符串A 和B,求长度不小于k 的公共子串的个数(可以相同). 样例1: A="xx",B="xx",k=1,长度不小于k 的公共子串的个数是5. 样例2: A ="aababaa",B ="abaabaa",k=2,长度不小于k 的公共子串的个数是22. 思路: 如果i后缀与j后缀的LCP长度为L, 在L不小于K的情况下, 它对答案的贡献为L - K + 1. 于是我们可以将两个串连起来, 中间加个奇葩的分隔符

HDOJ 题目4416 Good Article Good sentence（后缀数组求a串子串在b串中不出现的种类数）

-每周六晚的BestCoder(有米!) Good Article Good sentence Time Limit: 6000/3000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others) Total Submission(s): 2784 Accepted Submission(s): 785 Problem Description In middle school, teachers used to encour

面试题[后缀数组]: 最长重复子串

题目:给定一个字符串,求出最长重复子串. 这个题目可以用后缀数组来解:对后缀数组排好序,这样重复的子串就在相邻的后缀中找就可以了.我的C++代码实现如下: class Solution { public: string LongestRepeatingSubstring(string str) { size_t len = str.size(); vector<string> SuffixArray(len); for (size_t i = 0; i < len; ++i) Suffi

poj Common Substrings(后缀数组&单调队列)

Common Substrings Time Limit: 5000MS Memory Limit: 65536K Total Submissions: 7082 Accepted: 2355 Description A substring of a string T is defined as: T(i, k)=TiTi+1...Ti+k-1, 1≤i≤i+k-1≤|T|. Given two strings A, B and one integer K, we define S, a

hdu 4416 Good Article Good sentence(后缀数组&思维)

Good Article Good sentence Time Limit: 6000/3000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others) Total Submission(s): 2308 Accepted Submission(s): 649 Problem Description In middle school, teachers used to encourage us to pick up pre

spoj 694 Distinct Substrings（后缀数组）

题目:求一个字符串中所有不同子串个数后缀数组经典题,每一个子串一定是某个后缀的前缀,那么问题便等价于求所有后缀之间的不相同的前缀个数.我们按sa的顺序来考虑,当加入sa[k]的时候,sa[k]这个后缀的长度为n-sa[k]-1,那么便有n-sa[k]-1个前缀,但是由heigh数组可知sa[k]与sa[k-1]有height[k]个前缀是相同的,所以要除去. 注意的是这道题题意有点坑,一开始以为字母只能是大写的而且长度在1000之内,可发现根本不是这样!!!!!!!!最后改了m的值又把数组开到

完全弄懂后缀数组

什么叫后缀数组首先要知道什么叫后缀比如字符串 abcdef 那么 abcdef bcdef cdef def ef f 就叫做后缀也就是从最后一个字母之前的一个字母开始一直到最后一个字母所构成的字符串就叫做后缀至于后缀数组能干什么?我在这就不介绍了我想你既然知道后缀数组就一定知道他的用处但是自己之前读过很多后缀数组的文章短短二三十代码却没有找到一篇博客从头到尾讲解的自己断断续续一个月终于算是对倍增算法(就是一个名字不必纠结什么叫倍增算法)的有个比较深入理解

【转】后缀数组解题总结

之前觉得后缀自动机会了,就忽略了后缀数组,现在发现后缀数组+二分的功能很强,而且后缀自动机好像实现不了. 转发一下,方便队友大概看一下.这几天我也尽快恶补一下. (找不到原博主网站了,失误) 后缀数组解题总结: 1.求单个子串的不重复子串个数.SPOJ 694.SPOJ 705. 这个问题是一个特殊求值问题.要认识到这样一个事实:一个字符串中的所有子串都必然是它的后缀的前缀.(这句话稍微有点绕...)对于每一个sa[i]后缀,它的起始位置sa[i],那么它最多能得到该后缀长度个子串(n-sa[i

UVA 12206 - Stammering Aliens(后缀数组)

UVA 12206 - Stammering Aliens 题目链接题意:给定一个序列,求出出现次数大于m,长度最长的子串的最大下标思路:后缀数组,搞出height数组后,利用二分去查找即可这题之前还写过hash的写法也能过,不过写后缀数组的时候,犯了一个傻逼错误,把none输出成node还一直找不到...这是刷题来第二次碰到这种逗比错误了,还是得注意.. 代码: #include <cstdio> #include <cstring> #include <algori