POJ 3415 Common Substrings(长度不小于k 的公共子串的个数--后缀数组+单调栈优化)

题意:给定两个字符串A 和B,求长度不小于k 的公共子串的个数(可以相同)。

样例1:

A=“xx”,B=“xx”,k=1,长度不小于k 的公共子串的个数是5。

样例2:

A =“aababaa”,B =“abaabaa”,k=2,长度不小于k 的公共子串的个数是22。

思路:

如果i后缀与j后缀的LCP长度为L, 在L不小于K的情况下, 它对答案的贡献为L - K + 1. 于是我们可以将两个串连起来, 中间加个奇葩的分隔符, 做一遍后缀数组, 并按height数组的值对后缀分组, 保证同组内的后缀间的LCP不小于K. 显然不同组间的答案是独立的, 我们可以单独处理每一组. 于是问题变成了: 在每一组内, 对每个A的后缀, 算出它之前B的后缀与之LCP的和(其实是LCP - K + 1, 后面都说成LCP), 再对每个B后缀,
算出它之前A的后缀与之LCP的和

统计的时候用一般暴力复杂度达到O(n^2),这里可以用单调栈优化:比如A1,A2,A3,Bx是四个后缀,他们rank连续,而且height单调递增,那么A1与A2的LCP可以就是A1与Bx的LCP,所以单调的时候就能边入栈边统计答案了,但是细节也是比较多的,比如入栈的是B的后缀和A的后缀还要分别处理,不单调的时候,出栈直到再次单调为止。

单调栈也是第一次遇到,其实就是维护一个栈里面的元素始终单调...http://blog.csdn.net/hopeztm/article/details/7868581这里有一个单调栈在一个经典DP中的运用

自己太弱了,这题用为什么能用单调栈优化O(n)解决自己一开始也不懂,看cxlove的代码看了两个半小时才彻底弄懂..

.http://blog.csdn.net/acm_cxlove/article/details/7946967

//6612K	860MS	C++	3114B
#include<cstdio>
#include<iostream>
#include<cstring>
#include<algorithm>
using namespace std;

typedef long long ll;
const int MAXN = 2e5+100;
int t1[MAXN],t2[MAXN],c[MAXN];

bool cmp(int *r,int a,int b,int l)
{
    return r[a]==r[b]&&r[a+l]==r[b+l];
}
void da(int str[],int sa[],int rank[],int height[],int n,int m)
{
    n++;
    int i,j,p,*x=t1,*y=t2;
    for(i=0;i<m;i++) c[i]=0;
    for(i=0;i<n;i++) c[x[i]=str[i]]++;
    for(i=1;i<m;i++) c[i]+=c[i-1];
    for(i=n-1;i>=0;i--)sa[--c[x[i]]]=i;;
    for(j=1;j<=n;j<<=1)
    {
        p=0;
        for(i=n-j;i<n;i++) y[p++]=i;
        for(i=0;i<n;i++) if(sa[i]>=j) y[p++]=sa[i]-j;
        for(i=0;i<m;i++) c[i]=0;
        for(i=0;i<n;i++) c[x[y[i]]]++;
        for(i=1;i<m;i++) c[i]+=c[i-1];;
        for(i=n-1;i>=0;i--)sa[--c[x[y[i]]]]=y[i];
        swap(x,y);
        p=1;
        x[sa[0]]=0;
        for(i=1;i<n;i++) x[sa[i]]=cmp(y,sa[i-1],sa[i],j) ? p-1:p++;
        if(p>=n)break;
        m=p;
    }
    int k=0;
    n--;
    for(i=0;i<=n;i++) rank[sa[i]]=i;
    for(i=0;i<n;i++)
    {
        if(k) k--;
        j=sa[rank[i]-1];
        while(str[i+k]==str[j+k]) k++;
        height[rank[i]]=k;
    }
}

int rank[MAXN],height[MAXN];
char s1[MAXN],s2[MAXN];
int r[MAXN];
int sa[MAXN];
int g;
struct node
{
    int cnt;
    int val;
};
node s[MAXN];
int main()
{
    while(scanf("%d",&g),g)
    {
        scanf("%s%s",s1,s2);
        int l1=strlen(s1),l2=strlen(s2);
        int n=l1+l2+1;
        for(int i=0;i<l1;i++)
            r[i]=s1[i];
        r[l1]='$';
        for(int i=0;i<=l2;i++)
            r[i+l1+1]=s2[i];

        da(r,sa,rank,height,n,130);

        ll ans=0;
        ll top=0,cnt,tot=0;
        //在每一组内, 对每个B的后缀, 算出它之前A的后缀与之LCP - K + 1的和
        for(int i=1;i<=n;i++)
        {
            cnt=0;
            if(height[i]<g)top=tot=0; //这组结束,下一组开始
            else
            {
                if(sa[i-1]<l1)  //如果前一个是A的前缀,那么有对答案贡献LCP-g+1
                {
                    cnt++;
                    tot+=height[i]-g+1;
                }
                while(top!=0&&s[top-1].val>=height[i]) //不单调那么出栈直到单调
                {
                    top--;
                    tot-=s[top].cnt*(s[top].val-height[i]);
                    cnt+=s[top].cnt;
                }
                s[top].cnt=cnt;
                s[top++].val=height[i];
                if(sa[i]>l1) ans+=tot; //当前是B的后缀就把前面累计的tot加在ans上
            }
        }

        //在每一组内, 对每个A的后缀, 算出它之前B的后缀与之LCP - K + 1的和
        tot=0,top=0;
        for(int i=1;i<=n;i++)
        {
            cnt=0;
            if(height[i]<g)
                top=tot=0;
            else
            {
                if(sa[i-1]>l1)
                {
                    cnt++;
                    tot+=height[i]-g+1;
                }

                while(top!=0&&s[top-1].val>=height[i])
                {
                    top--;
                    tot-=s[top].cnt*(s[top].val-height[i]) ;
                    cnt+=s[top].cnt;
                }
                s[top].val=height[i];
                s[top++].cnt=cnt;
                if(sa[i]<l1) ans+=tot;
            }
        }
        printf("%I64d\n",ans);
    }
    return 0;
}
时间: 2024-10-10 19:43:38

POJ 3415 Common Substrings(长度不小于k 的公共子串的个数--后缀数组+单调栈优化)的相关文章

【POJ 3415】Common Substrings 长度不小于k的公共子串的个数

长度不小于k的公共子串的个数,论文里有题解,卡了一上午,因为sum没开long long!!! 没开long long毁一生again--- 以后应该早看POJ里的Discuss啊QAQ #include<cstdio> #include<cstring> #include<iostream> #include<algorithm> using namespace std; const int N = 200003; int t1[N], t2[N], c[

POJ 3415 Common Substrings (求长度不小于k的公共子串的个数)

Common Substrings Time Limit: 5000MS   Memory Limit: 65536K Total Submissions: 10002   Accepted: 3302 Description A substring of a string T is defined as: T(i, k)=TiTi+1...Ti+k-1, 1≤i≤i+k-1≤|T|. Given two strings A, B and one integer K, we define S,

POJ - 3415 Common Substrings(后缀数组求长度不小于 k 的公共子串的个数+单调栈优化)

Description A substring of a string T is defined as: T( i, k)= TiTi+1... Ti+k-1, 1≤ i≤ i+k-1≤| T|. Given two strings A, B and one integer K, we define S, a set of triples (i, j, k): S = {( i, j, k) | k≥ K, A( i, k)= B( j, k)}. You are to give the val

POJ 3415:后缀数组+单调栈优化

题意很简单,求两个字符串长度大于等于K的子串个数 一开始还是只会暴力..发现n^2根本没法做...看了题解理解了半天才弄出来,太弱了... 思路:把两个字符串连接后做一次后缀数组,求出height 暴力的想法自然是枚举第一个子串的起始位置i和第二个子串的起始位置j,肯定会T的 看了题解才知道有单调栈这种有优化方法.. 将后缀分为A组(起始点为第一个字符串).B组 设符合要求的lcp长度为a,则其对答案的贡献为a-k+1(长度为k~a的都是符合要求的) 一开始这里我也是有疑问的,比如说k=1,aa

POJ 3415 Common Substrings(后缀数组求重复字串)

题目大意:给你两个字符串,让你求出来两个字符串之间的重复子串长度大于k的有多少个. 解题思路: 先说论文上给的解释:基本思路是计算A的所有后缀和B的所有后缀之间的最长公共前缀的长度,把最长公共前缀长度不小于k的部分全部加起来.先将两个字符串连起来,中间用一个没有出现过的字符隔开.按height值分组后,接下来的工作便是快速的统计每组中后缀之间的最长公共前缀之和.扫描一遍,每遇到一个B的后缀就统计与前面的A的后缀能产生多少个长度不小于k的公共子串,这里A的后缀需要用一个单调的栈来高效的维护.然后对

POJ 3415 Common Substrings ——后缀数组

[题目分析] 判断有多少个长度不小于k的相同子串的数目. N^2显然是可以做到的. 其实可以维护一个关于height的单调栈,统计一下贡献,就可以了. 其实还是挺难写的OTZ. [代码] #include <cstdio> #include <cstring> #include <cmath> #include <cstdlib> #include <map> #include <set> #include <queue>

POJ 3415 后缀数组+单调栈

题目大意: 给定A,B两种字符串,问他们当中的长度大于k的公共子串的个数有多少个 这道题目本身理解不难,将两个字符串合并后求出它的后缀数组 然后利用后缀数组求解答案 这里一开始看题解说要用栈的思想,觉得很麻烦就不做了,后来在比赛中又遇到就后悔了,到今天看了很久才算看懂 首先建一个栈,从栈底到栈顶都保证是单调递增的 我们用一个tot记录当前栈中所有项和一个刚进入的子串匹配所能得到的总的子串的数目(当然前提是,当前进入的子串height值比栈顶还大,那么和栈中任意一个子串匹配都保持当前栈中记录的那时

POJ 3415 Common Substrings(后缀数组+单调栈)

[题目链接] http://poj.org/problem?id=3415 [题目大意] 求出两个字符串长度大于k的公共子串的数目. [题解] 首先,很容易想到O(n2)的算法,将A串和B串加拼接符相连, 做一遍后缀数组,把分别属于A和B的所有后缀匹配,LCP-k+1就是对答案的贡献, 但是在这个基础上该如何优化呢. 我们可以发现按照sa的顺序下来,每个后缀和前面的串的LCP就是区间LCP的最小值, 那么我们维护一个单调栈,将所有单调递减的LCP值合并, 保存数量和长度,对每个属于B串的后缀更新

字符串(后缀数组):POJ 3415 Common Substrings

Common Substrings Description A substring of a string T is defined as: T(i, k)=TiTi+1...Ti+k-1, 1≤i≤i+k-1≤|T|. Given two strings A, B and one integer K, we define S, a set of triples (i, j, k): S = {(i, j, k) | k≥K, A(i, k)=B(j, k)}. You are to give