[TyvjP1515] 子串统计 [luoguP2408] 不同子串个数(后缀数组)

Tyvj传送门

luogu传送门

经典题

统计一个字符串中不同子串的个数

一个字符串中的所有子串就是所有后缀的前缀

先求出后缀数组,求出后缀数组中相邻两后缀的 lcp

那么按照后缀数组中的顺序遍历求解

每一个后缀 suffix(sa[i]) 对于答案的贡献为 len - sa[i] - height[i]

len - sa[i] 为当前后缀的长度,也就是当前后缀所有前缀的个数(字符串从 0 开始)

height[i] 就是相邻两后缀 lcp,因为有可能会有相同前缀,而相同前缀在前面已经计算过了

为什么只需要 height 数组,而不用把任意两后缀的 lcp 求出来呢?

因为所有后缀已经按照字典序排序了,也就是说,sa[i] 和 sa[i - 1] 的 lcp 即为 sa[i] 和 sa[0 ~ i - 1] 的所有 lcp 的最大值。

——代码(Tyvj)

 1 #include <cstdio>
 2 #include <cstring>
 3 #include <iostream>
 4 #define N 200001
 5 #define LL long long
 6
 7 LL ans;
 8 int len, m = 256;
 9 int buc[N], x[N], y[N], sa[N], rank[N], height[N];
10 char s[N];
11
12 inline void build_sa()
13 {
14     int i, k, p;
15     for(i = 0; i < m; i++) buc[i] = 0;
16     for(i = 0; i < len; i++) buc[x[i] = s[i]]++;
17     for(i = 1; i < m; i++) buc[i] += buc[i - 1];
18     for(i = len - 1; i >= 0; i--) sa[--buc[x[i]]] = i;
19     for(k = 1; k <= len; k <<= 1)
20     {
21         p = 0;
22         for(i = len - 1; i >= len - k; i--) y[p++] = i;
23         for(i = 0; i < len; i++) if(sa[i] >= k) y[p++] = sa[i] - k;
24         for(i = 0; i < m; i++) buc[i] = 0;
25         for(i = 0; i < len; i++) buc[x[y[i]]]++;
26         for(i = 1; i < m; i++) buc[i] += buc[i - 1];
27         for(i = len - 1; i >= 0; i--) sa[--buc[x[y[i]]]] = y[i];
28         std::swap(x, y);
29         p = 1, x[sa[0]] = 0;
30         for(i = 1; i < len; i++)
31             x[sa[i]] = y[sa[i - 1]] == y[sa[i]] && y[sa[i - 1] + k] == y[sa[i] + k] ? p - 1 : p++;
32         if(p >= len) break;
33         m = p;
34     }
35 }
36
37 inline void build_height()
38 {
39     int i, j, k = 0;
40     for(i = 0; i < len; i++) rank[sa[i]] = i;
41     for(i = 0; i < len; i++)
42     {
43         if(!rank[i]) continue;
44         if(k) k--;
45         j = sa[rank[i] - 1];
46         while(s[i + k] == s[j + k] && i + k < len && j + k < len) k++;
47         height[rank[i]] = k;
48     }
49 }
50
51 int main()
52 {
53     int i;
54     scanf("%d", &len);
55     getchar();
56     for(i = 0; i < len; i++)
57     {
58         s[i] = getchar();
59         if((i + 1) % 80 == 0) getchar();
60     }
61     build_sa();
62     build_height();
63     for(i = 0; i < len; i++) ans += (LL)(len - sa[i] - height[i]);
64     printf("%lld\n", ans);
65     return 0;
66 }

洛谷那题好像数据有点问题。

时间: 2024-10-24 14:01:07

[TyvjP1515] 子串统计 [luoguP2408] 不同子串个数(后缀数组)的相关文章

POJ 3415 Common Substrings(长度不小于k 的公共子串的个数--后缀数组+单调栈优化)

题意:给定两个字符串A 和B,求长度不小于k 的公共子串的个数(可以相同). 样例1: A="xx",B="xx",k=1,长度不小于k 的公共子串的个数是5. 样例2: A ="aababaa",B ="abaabaa",k=2,长度不小于k 的公共子串的个数是22. 思路: 如果i后缀与j后缀的LCP长度为L, 在L不小于K的情况下, 它对答案的贡献为L - K + 1. 于是我们可以将两个串连起来, 中间加个奇葩的分隔符

HDOJ 题目4416 Good Article Good sentence(后缀数组求a串子串在b串中不出现的种类数)

-每周六晚的BestCoder(有米!) Good Article Good sentence Time Limit: 6000/3000 MS (Java/Others)    Memory Limit: 32768/32768 K (Java/Others) Total Submission(s): 2784    Accepted Submission(s): 785 Problem Description In middle school, teachers used to encour

面试题[后缀数组]: 最长重复子串

题目:给定一个字符串,求出最长重复子串. 这个题目可以用后缀数组来解:对后缀数组排好序,这样重复的子串就在相邻的后缀中找就可以了.我的C++代码实现如下: class Solution { public: string LongestRepeatingSubstring(string str) { size_t len = str.size(); vector<string> SuffixArray(len); for (size_t i = 0; i < len; ++i) Suffi

poj Common Substrings(后缀数组&amp;单调队列)

Common Substrings Time Limit: 5000MS   Memory Limit: 65536K Total Submissions: 7082   Accepted: 2355 Description A substring of a string T is defined as: T(i, k)=TiTi+1...Ti+k-1, 1≤i≤i+k-1≤|T|. Given two strings A, B and one integer K, we define S, a

hdu 4416 Good Article Good sentence(后缀数组&amp;思维)

Good Article Good sentence Time Limit: 6000/3000 MS (Java/Others)    Memory Limit: 32768/32768 K (Java/Others) Total Submission(s): 2308    Accepted Submission(s): 649 Problem Description In middle school, teachers used to encourage us to pick up pre

spoj 694 Distinct Substrings(后缀数组)

题目:求一个字符串中所有不同子串个数 后缀数组经典题,每一个子串一定是某个后缀的前缀,那么问题便等价于求所有后缀之间的不相同的前缀个数.我们按sa的顺序来考虑,当加入sa[k]的时候,sa[k]这个后缀的长度为n-sa[k]-1,那么便有n-sa[k]-1个前缀,但是由heigh数组可知sa[k]与sa[k-1]有height[k]个前缀是相同的,所以要除去. 注意的是这道题题意有点坑,一开始以为字母只能是大写的而且长度在1000之内,可发现根本不是这样!!!!!!!!最后改了m的值又把数组开到

完全弄懂后缀数组

什么叫后缀数组  首先要知道什么叫后缀 比如 字符串 abcdef  那么 abcdef bcdef cdef def ef f 就叫做后缀  也就是从最后一个字母之前的一个字母开始一直到最后一个字母  所构成的字符串就叫做后缀 至于后缀数组能干什么?我在这就不介绍了  我想你既然知道后缀数组就一定知道他的用处 但是自己之前读过很多后缀数组的文章  短短二三十代码  却没有找到一篇博客从头到尾讲解的 自己断断续续一个月终于算是对倍增算法(就是一个名字  不必纠结什么叫倍增算法)的有个比较深入理解

【转】后缀数组解题总结

之前觉得后缀自动机会了,就忽略了后缀数组,现在发现后缀数组+二分的功能很强,而且后缀自动机好像实现不了. 转发一下,方便队友大概看一下.这几天我也尽快恶补一下. (找不到原博主网站了,失误) 后缀数组解题总结: 1.求单个子串的不重复子串个数.SPOJ 694.SPOJ 705. 这个问题是一个特殊求值问题.要认识到这样一个事实:一个字符串中的所有子串都必然是它的后缀的前缀.(这句话稍微有点绕...)对于每一个sa[i]后缀,它的起始位置sa[i],那么它最多能得到该后缀长度个子串(n-sa[i

UVA 12206 - Stammering Aliens(后缀数组)

UVA 12206 - Stammering Aliens 题目链接 题意:给定一个序列,求出出现次数大于m,长度最长的子串的最大下标 思路:后缀数组,搞出height数组后,利用二分去查找即可 这题之前还写过hash的写法也能过,不过写后缀数组的时候,犯了一个傻逼错误,把none输出成node还一直找不到...这是刷题来第二次碰到这种逗比错误了,还是得注意.. 代码: #include <cstdio> #include <cstring> #include <algori