[spoj DISUBSTR]后缀数组统计不同子串个数

题目链接:https://vjudge.net/contest/70655#problem/C

后缀数组的又一神奇应用。不同子串的个数,实际上就是所有后缀的不同前缀的个数。

考虑所有的后缀按照rank排好了,我们现在已知height,也就是相邻的两个的最长公共前缀是多少。那么不同的子串个数怎么统计呢?

从第一个串开始考虑,ans+=L1。再看第二个串,会加进来几个不同的前缀呢?就是ans+=L2-height[2]。第三个类似,会加进来ans+=L3-height[3]……

因此最后的结果就是ans=L*(L+1)/2-sigma(height[2..n])。L是整个字符串的长度。

不过看这个题的数据范围是可以hash搞过去的,但是这个题就不行了:https://vjudge.net/contest/70655#problem/D,而且这个题会爆long long......

#include<cstdio>
#include<algorithm>
#include<cstring>
#include<queue>
using namespace std;

const int maxn=1005;

#define F(x) ((x)/3+((x)%3==1?0:tb))
#define G(x) ((x)<tb?(x)*3+1:((x)-tb)*3+2)
int wa[maxn*3],wb[maxn*3],wv[maxn*3],wss[maxn*3];
int c0(int *r,int a,int b)
{
    return r[a]==r[b] && r[a+1]==r[b+1] && r[a+2]==r[b+2];
}
int c12(int k,int *r,int a,int b)
{
    if (k==2) return r[a]<r[b] || (r[a]==r[b]&&c12(1,r,a+1,b+1));
    else return r[a]<r[b] || (r[a]==r[b]&&wv[a+1]<wv[b+1]);
}
void sort(int *r,int *a,int *b,int n,int m)
{
    int i;
    for (i=0;i<n;i++) wv[i]=r[a[i]];
    for (i=0;i<m;i++) wss[i]=0;
    for (i=0;i<n;i++) wss[wv[i]]++;
    for (i=1;i<m;i++) wss[i]+=wss[i-1];
    for (i=n-1;i>=0;i--) b[--wss[wv[i]]]=a[i];
}
void dc3(int *r,int *sa,int n,int m)
{
    int i,j,*rn=r+n;
    int *san=sa+n,ta=0,tb=(n+1)/3,tbc=0,p;
    r[n]=r[n+1]=0;
    for (i=0;i<n;i++) if (i%3!=0) wa[tbc++]=i;
    sort(r+2,wa,wb,tbc,m);
    sort(r+1,wb,wa,tbc,m);
    sort(r,wa,wb,tbc,m);
    for (p=1,rn[F(wb[0])]=0,i=1;i<tbc;i++)
        rn[F(wb[i])]=c0(r,wb[i-1],wb[i])?p-1:p++;
    if (p<tbc) dc3(rn,san,tbc,p);
    else for (i=0;i<tbc;i++) san[rn[i]]=i;
    for (i=0;i<tbc;i++) if (san[i]<tb) wb[ta++]=san[i]*3;
    if (n%3==1) wb[ta++]=n-1;
    sort(r,wb,wa,ta,m);
    for (i=0;i<tbc;i++) wv[wb[i]=G(san[i])]=i;
    for (i=0,j=0,p=0;i<ta&&j<tbc;p++)
        sa[p]=c12(wb[j]%3,r,wa[i],wb[j])?wa[i++]:wb[j++];
    for (;i<ta;p++) sa[p]=wa[i++];
    for (;j<tbc;p++) sa[p]=wb[j++];
}
void da(int str[],int sa[],int rank[],int height[],int n,int m)
{
    for (int i=n;i<n*3;i++)
        str[i]=0;
    dc3(str,sa,n+1,m);
    int i,j,k=0;
    for (i=0;i<=n;i++) rank[sa[i]]=i;
    for (i=0;i<n;i++)
    {
        if (k) k--;
        j=sa[rank[i]-1];
        while (str[i+k]==str[j+k]) k++;
        height[rank[i]]=k;
    }
}
char s[maxn];
int a[maxn*3];
int ra[maxn*3],height[maxn*3],sa[maxn*3];

int solve(int n)
{
    // height[2..n]
    int ans=n*(n+1)/2;
    for (int i=2;i<=n;i++) ans-=height[i];
    return ans;
}

int main()
{
    int t;
    scanf("%d",&t);
    while (t--)
    {
        scanf("%s",s);
        int l=strlen(s);
        for (int i=0;i<l;i++) a[i]=(int)s[i];
        da(a,sa,ra,height,l,1000);
        printf("%d\n",solve(l));
    }
    return 0;
}
时间: 2024-10-12 16:07:32

[spoj DISUBSTR]后缀数组统计不同子串个数的相关文章

SPOJ Distinct Substrings(后缀数组求不同子串个数,好题)

DISUBSTR - Distinct Substrings no tags Given a string, we need to find the total number of its distinct substrings. Input T- number of test cases. T<=20; Each test case consists of one string, whose length is <= 1000 Output For each test case output

SPOJ DISUBSTR 后缀数组

题目链接:http://www.spoj.com/problems/DISUBSTR/en/ 题意:给定一个字符串,求不相同的子串个数. 思路:直接根据09年oi论文<<后缀数组——出来字符串的有力工具>>的解法. 还有另一种思想:总数为n*(n-1)/2,height[i]是两个后缀的最长公共前缀,所以用总数-height[i]的和就是答案 #define _CRT_SECURE_NO_DEPRECATE #include<iostream> #include<

SPOJ DISUBSTR ——后缀数组

[题目分析] 后缀数组模板题. 由于height数组存在RMQ的性质. 那么对于一个后缀,与前面相同的串总共有h[i]+sa[i]个.然后求和即可. [代码](模板来自Claris,这个板子太漂亮了) #include <cstdio> #include <cstring> #include <cmath> #include <cstdlib> #include <map> #include <set> #include <qu

Distinct Substrings SPOJ - DISUBSTR(后缀数组水题)

求不重复的子串个数 用所有的减去height就好了 推出来的... #include <iostream> #include <cstdio> #include <sstream> #include <cstring> #include <map> #include <cctype> #include <set> #include <vector> #include <stack> #include

SPOJ 220后缀数组:求每个字符串至少出现两次且不重叠的最长子串

思路:也是n个串连接成一个串,中间用没出现过的字符隔开,然后求后缀数组. 因为是不重叠的,所以和POJ 1743判断一样,只不过这里是多个串,每个串都要判断里面的最长公共前缀有没有重叠,所以用数组存下来就得了,然后再判断. #include<iostream> #include<cstdio> #include<cstring> #include<algorithm> #include<map> #include<queue> #in

Spoj-DISUBSTR - Distinct Substrings~New Distinct Substrings SPOJ - SUBST1~(后缀数组求解子串个数)

Spoj-DISUBSTR - Distinct Substrings New Distinct Substrings SPOJ - SUBST1 我是根据kuangbin的后缀数组专题来的 这两题题意一样求解字符串中不同字串的个数: 这个属于后缀数组最基本的应用 给定一个字符串,求不相同的子串的个数. 算法分析: 每个子串一定是某个后缀的前缀,那么原问题等价于求所有后缀之间的不相同的前缀的个数. 如果所有的后缀按照 suffix(sa[1]), suffix(sa[2]), suffix(sa

SPOJ SUBST1 后缀数组

题目链接:http://www.spoj.com/problems/SUBST1/en/ 题意:给定一个字符串,求不相同的子串个数. 思路:直接根据09年oi论文<<后缀数组——出来字符串的有力工具>>的解法. 此题和SPOJ DISUBSTR一样,至少数据范围变大了. #define _CRT_SECURE_NO_DEPRECATE #include<iostream> #include<cstdio> #include<cstring> #i

SPOJ REPEATS 后缀数组

题目链接:http://www.spoj.com/problems/REPEATS/en/ 题意:首先定义了一个字符串的重复度.即一个字符串由一个子串重复k次构成.那么最大的k即是该字符串的重复度.现在给定一个长度为n的字符串,求最大重复次数. 思路:根据<<后缀数组——处理字符串的有力工具>>的思路,先穷举长度L,然后求长度为L 的子串最多能连续出现几次.首先连续出现1 次是肯定可以的,所以这里只考虑至少2 次的情况.假设在原字符串中连续出现2 次,记这个子字符串为S,那么S 肯

SPOJ PHRASES 后缀数组

题目链接:http://www.spoj.com/problems/PHRASES/en/ 题意:给定n个字符串,求一个最长的子串至少在每个串中的不重叠出现次数都不小于2.输出满足条件的最长子串长度 思路:根据<<后缀数组——处理字符串的有力工具>>的思路,先将 n个字符串连起来, 中间用不相同的且没有出现在字符串中的字符隔开, 求后缀数组. 然后二分答案, 再将后缀分组.判断的时候, 要看是否有一组后缀在每个原来的字符串中至少出现两次, 并且在每个原来的字符串中, 后缀的起始位置