【poj3415】 Common Substrings

http://poj.org/problem?id=3415 (题目链接)

题意

  给定两个字符串 A 和 B,求长度不小于 k 的公共子串的个数(可以相同)。

Solution

  后缀数组论文题。。。

  基本思路是计算 A 的所有后缀和 B 的所有后缀之间的最长公共前缀的长度,把最长公共前缀长度不小于 k 的部分全部加起来。先将两个字符串连起来,中间用一个没有出现过的字符隔开。按 height 值分组后,接下来的工作便是快速的统计每组中后缀之间的最长公共前缀之和。扫描一遍,每遇到一个 B 的后缀就统计与前面的 A 的后缀能产生多少个长度不小于 k 的公共子串,这里 A 的后缀需要用一个单调的栈来高效的维护。然后对 A 也这样做一次。

  如何用单调栈来维护呢?这真的是一个问题。这里我运用的单调栈与一般的单调栈不一样。单调栈里面记录一个结构体,结构体记录每个串对答案的贡献w以及这种串的个数c,自栈底向栈顶w递增。每次扫描到一个height[i]当它小于栈顶时,将栈顶的元素与栈顶第二个元素合并,并且更新栈中元素的总贡献。

细节

  数组开两倍。

代码

// poj3693
#include<algorithm>
#include<iostream>
#include<cstdlib>
#include<cstring>
#include<cstdio>
#include<cmath>
#include<queue>
#define LL long long
#define inf 1<<30
#define Pi acos(-1.0)
#define free(a) freopen(a".in","r",stdin),freopen(a".out","w",stdout);
using namespace std;

const int maxn=500010;
int sa[maxn],rank[maxn],height[maxn];
int n,K;
char s[maxn];

struct data {int w,c;}st[maxn];
namespace Suffix {
	int wa[maxn],wb[maxn],ww[maxn];
	bool cmp(int *r,int a,int b,int l) {
		return r[a]==r[b] && r[a+l]==r[b+l];
	}
	void da(char *r,int *sa,int n,int m) {
		int i,j,p,*x=wa,*y=wb;
		for (i=0;i<=m;i++) ww[i]=0;
		for (i=1;i<=n;i++) ww[x[i]=r[i]]++;
		for (i=1;i<=m;i++) ww[i]+=ww[i-1];
		for (i=n;i>=1;i--) sa[ww[x[i]]--]=i;
		for (p=0,j=1;p<n;j*=2,m=p) {
			for (p=0,i=n-j+1;i<=n;i++) y[++p]=i;
			for (i=1;i<=n;i++) if (sa[i]>j) y[++p]=sa[i]-j;
			for (i=0;i<=m;i++) ww[i]=0;
			for (i=1;i<=n;i++) ww[x[y[i]]]++;
			for (i=1;i<=m;i++) ww[i]+=ww[i-1];
			for (i=n;i>=1;i--) sa[ww[x[y[i]]]--]=y[i];
			for (swap(x,y),p=x[sa[1]]=1,i=2;i<=n;i++)
				x[sa[i]]=cmp(y,sa[i-1],sa[i],j) ? p : ++p;
		}
	}
	void calheight(char *r,int *sa,int n) {
		for (int i=1;i<=n;i++) rank[sa[i]]=i;
		for (int k=0,i=1;i<=n;i++) {
			if (k) k--;
			int j=sa[rank[i]-1];
			while (r[i+k]==r[j+k]) k++;
			height[rank[i]]=k;
		}
	}
}

int main() {
	while (scanf("%d",&K)!=EOF && K) {
		scanf("%s",s+1);
		int n=strlen(s+1);
		s[++n]=‘#‘;
		int l=n;
		scanf("%s",s+n+1);
		n=strlen(s+1);
		Suffix::da(s,sa,n,300);
		Suffix::calheight(s,sa,n);
		int top=0;LL ans=0,S=0;
		height[n+1]=inf;
		for (int i=1;i<=n+1;i++) {
			if (sa[i]>l && i!=n+1) ans+=S;
			if (height[i+1]>=K) {
				while (top>1 && st[top-1].w>height[i+1]-K+1) {
					st[top-1].c+=st[top].c;
					S-=(st[top].w-st[top-1].w)*st[top].c;
					st[top--]=(data){0,0};
				}
				if (st[top].w>height[i+1]-K+1) {
					if (st[top-1].w==height[i+1]-K+1) {
						st[top-1].c+=st[top].c;
						S-=(st[top].w-st[top-1].w)*st[top].c;
						st[top--]=(data){0,0};
					}
					else {S-=(st[top].w-(height[i+1]-K+1))*st[top].c;st[top].w=height[i+1]-K+1;}
				}
				if (sa[i]<l) {
					if (st[top].w==height[i+1]-K+1) st[top].c++;
					else st[++top]=(data){height[i+1]-K+1,1};
					S+=height[i+1]-K+1;
				}
			}
			else {while (top) st[top--]=(data){0,0};S=0;}
		}
		for (int i=1;i<=n+1;i++) {
			if (sa[i]<l && i!=n+1) ans+=S;
			if (height[i+1]>=K) {
				while (top>1 && st[top-1].w>height[i+1]-K+1) {
					st[top-1].c+=st[top].c;
					S-=(st[top].w-st[top-1].w)*st[top].c;
					st[top--]=(data){0,0};
				}
				if (st[top].w>height[i+1]-K+1) {
					if (st[top-1].w==height[i+1]-K+1) {
						st[top-1].c+=st[top].c;
						S-=(st[top].w-st[top-1].w)*st[top].c;
						st[top--]=(data){0,0};
					}
					else {S-=(st[top].w-(height[i+1]-K+1))*st[top].c;st[top].w=height[i+1]-K+1;}
				}
				if (sa[i]>l) {
					if (st[top].w==height[i+1]-K+1) st[top].c++;
					else st[++top]=(data){height[i+1]-K+1,1};
					S+=height[i+1]-K+1;
				}
			}
			else {while (top) st[top--]=(data){0,0};S=0;}
		}
		printf("%lld\n",ans);
	}
    return 0;
}
时间: 2024-11-05 13:33:22

【poj3415】 Common Substrings的相关文章

【POJ3415】 Common Substrings (SA+单调栈)

这道是求长度不小于 k 的公共子串的个数...很不幸,我又TLE了... 解法参考论文以及下面的链接 http://www.cnblogs.com/vongang/archive/2012/11/20/2778481.html http://hi.baidu.com/fpkelejggfbfimd/item/5c76cfcba28fba26e90f2ea6 1 const maxn=200419; 2 var 3 c,h,rank,sa,x,y,stack:array[0..maxn] of l

【POJ3415】Common Substrings 后缀自动机

转载请注明出处:http://blog.csdn.net/vmurder/article/details/42710069 其实我就是觉得原创的访问量比未授权盗版多有点不爽233... 题意: 给两个串,问有多少长度大于等于K的公共子串(位置不同也算一对) 题解: 后缀自动机DP 对第一个串建立后缀自动机,然后做一些预处理, 然后拿第二个串在后缀自动机上跑,到每个节点加一次贡献. 但是这样需要每个点往parent树上跑一遍,会TLE,所以可以加个lazy. 然后代码中有两次运用到拓扑序来从子向父

【CF316G3】Good Substrings 后缀自动机

[CF316G3]Good Substrings 题意:给出n个限制(p,l,r),我们称一个字符串满足一个限制当且仅当这个字符串在p中的出现次数在[l,r]之间.现在想问你S的所有本质不同的子串中,有多少个满足所有限制. |S|,|p|<=10^5,n<=10. 题解:比较简单的后缀自动机题,我们先把原串和所有限制串放到一起建一个广义后缀自动机,然后在pre树上统计一下即可得到每个子串在每个限制串中出现了多少次.现在我们想知道原串中有多少满足条件的子串,即我们统计一下所有出现次数符合要求的,

【SPOJ】Distinct Substrings(后缀自动机)

[SPOJ]Distinct Substrings(后缀自动机) 题面 Vjudge 题意:求一个串的不同子串的数量 题解 对于这个串构建后缀自动机之后 我们知道每个串出现的次数就是\(right/endpos\)集合的大小 但是实际上我们没有任何必要减去不合法的数量 我们只需要累加每个节点表示的合法子串的数量即可 这个值等于\(longest-shortest+1=longest-parent.longest\) #include<iostream> #include<cstdio&g

【spoj705】 Distinct Substrings

[题目描述] 给定一个字符串,计算其不同的子串个数. [输入格式] 一行一个仅包含大写字母的字符串,长度<=50000 [输出格式] 一行一个正整数,即不同的子串个数. [样例输入] ABABA [样例输出] 9 [思路] 一看就知道是后缀数组题啦-但是我不会写QAQ..只好现学现用啦- 在字符串最后补上一个'$',不因为别的只因为它比‘A’还要小..不然你补ascII码是0的也可以.. 申请rank数组和sa数组,rank[i]=j代表后缀i排第j位,sa[i]=j代表排名第i的是后缀j.也就

【POJ 3415】Common Substrings 长度不小于k的公共子串的个数

长度不小于k的公共子串的个数,论文里有题解,卡了一上午,因为sum没开long long!!! 没开long long毁一生again--- 以后应该早看POJ里的Discuss啊QAQ #include<cstdio> #include<cstring> #include<iostream> #include<algorithm> using namespace std; const int N = 200003; int t1[N], t2[N], c[

bzoj1968【AHOI2005】COMMON 约数研究

1968: [Ahoi2005]COMMON 约数研究 Time Limit: 1 Sec  Memory Limit: 64 MB Submit: 1492  Solved: 1139 [Submit][Status][Discuss] Description Input 只有一行一个整数 N(0 < N < 1000000). Output 只有一行输出,为整数M,即f(1)到f(N)的累加和. Sample Input 3 Sample Output 5 HINT Source Day2

【POJ1458】Common Subsequence

Common Subsequence Time Limit: 1000MS   Memory Limit: 10000K Total Submissions: 42100   Accepted: 16996 Description A subsequence of a given sequence is the given sequence with some elements (possible none) left out. Given a sequence X = < x1, x2, ..

【转载】COMMON PITFALLS IN MACHINE LEARNING

COMMON PITFALLS IN MACHINE LEARNING JANUARY 6, 2015 DN 3 COMMENTS Over the past few years I have worked on numerous different machine learning problems. Along the way I have fallen foul of many sometimes subtle and sometimes not so subtle pitfalls wh