后缀数组 POJ 3693 Maximum repetition substring

题目链接

题意:给定一个字符串,求重复次数最多的连续重复子串。

分析:(论文上的分析)先穷举长度 L,然后求长度为 L 的子串最多能连续出现几次。首先连续出现 1 次是肯定可以的,所以这里只考虑至少 2 次的情况。假设在原字符串中连续出 现 2 次,记这个子字符串为 S,那么 S 肯定包括了字符 r[0], r[L], r[L*2], r[L*3], ……中的某相邻的两个。所以只须看字符 r[L*i]和 r[L*(i+1)]往前和 往后各能匹配到多远,记这个总长度为 K,那么这里连续出现了 K/L+1 次。最后 看最大值是多少。穷举长度 L 的时间是 n,每次计算的时间是 n/L。所以整个做法的时间复杂 度是 O(n/1+n/2+n/3+……+n/n)=O(nlogn)。

因为枚举长度的同时不能枚举起点的位置,但是可以通过偏移(lcp%L)的距离来得到可能的最优起点。例如"dddcabcabcabcab"从红字与红字为开始点,长度为3的lcp为8("abcabcab"),偏移后从"dddcabcabcabcab"红字与红字开始,长度为3的lcp为9("cabcabcab")。题目要求次数最多,长度不限,字典序最小的,那么保存所有次数同样最大,不同长度的所有长度,在已经排好序的后缀从前往后匹配就行了。代码实现有诸多细节之处,另外数据水,不保证没有bug。

#include <cstdio>
#include <algorithm>
#include <cstring>

const int N = 1e5 + 5;
const int D = 20;
char s[N];
int sa[N], rank[N], height[N];
int ws[N], wa[N], wb[N];
int dp[N][D];
int mlen[N];

bool cmp(int *r, int a, int b, int l) {
    return (r[a] == r[b] && r[a+l] == r[b+l]);
}
void DA(char *r, int n, int m = 128) {
    int i, j, p, *x = wa, *y = wb;
    for (i=0; i<m; ++i) ws[i] = 0;
    for (i=0; i<n; ++i) ws[x[i]=r[i]]++;
    for (i=1; i<m; ++i) ws[i] += ws[i-1];
    for (i=n-1; i>=0; --i) sa[--ws[x[i]]] = i;
    for (j=1, p=1; p<n; j<<=1, m=p) {
        for (p=0, i=n-j; i<n; ++i) y[p++] = i;
        for (i=0; i<n; ++i) if (sa[i] >= j) y[p++] = sa[i] - j;
        for (i=0; i<m; ++i) ws[i] = 0;
        for (i=0; i<n; ++i) ws[x[y[i]]]++;
        for (i=1; i<m; ++i) ws[i] += ws[i-1];
        for (i=n-1; i>=0; --i) sa[--ws[x[y[i]]]] = y[i];
        std::swap (x, y);
        p = 1; x[sa[0]] = 0;
        for (i=1; i<n; ++i) {
            x[sa[i]] = cmp (y, sa[i-1], sa[i], j) ? p - 1 : p++;
        }
    }
}
void calc_height(char *r, int *sa, int n) {
    int i, j, k = 0;
    for (i=1; i<=n; ++i) rank[sa[i]] = i;
    for (i=0; i<n; ++i) {
        if (k) k--;
        j = sa[rank[i]-1];
        while (r[i+k] == r[j+k]) k++;
        //其实并没有计算height[n]
        height[rank[i]] = k;
    }
}

int query_RMQ(int l, int r) {
    l = rank[l]; r = rank[r];
    if (l > r) {
        std::swap (l, r);
    }
    l++;
    int k = 0; while (1<<(k+1) <= r - l + 1) k++;
    return std::min (dp[l][k], dp[r-(1<<k)+1][k]);
}
void init_RMQ(int n) {
    //height[0]=lcp (suffix (sa[0], sa[0-1]));没有意义
    for (int i=1; i<=n; ++i) {
        dp[i][0] = height[i];
    }
    for (int j=1; (1<<j)<=n; j++) {
        for (int i=1; i+(1<<j)-1<n; ++i) {
            //与之对应,从height[1]开始
            dp[i][j] = std::min (dp[i][j-1], dp[i+(1<<(j-1))][j-1]);
        }
    }
}

int main() {
    int cas = 0;
    while (scanf ("%s", s) == 1) {
        if (strcmp (s, "#") == 0) {
            break;
        }
        int n = strlen (s);
        DA (s, n + 1);
        calc_height (s, sa, n);
        init_RMQ (n);
        int best = -1, tot = 0;
        for (int l=1; l<=n; ++l) {
            for (int i=0; i+l<n; i+=l) {
                int lcp = query_RMQ (i, i + l);
                int m = l - lcp % l;
                if (i - m >= 0 && lcp % l) {
                    lcp = std::max (lcp, query_RMQ (i - m, i - m + l));
                }
                int t = lcp / l + 1;
                if (best < t) {
                    best = t;
                    tot = 0;
                    mlen[tot++] = l;
                } else if (best == t && mlen[tot-1] != l) {
                    mlen[tot++] = l;
                }
            }
        }
        //best: 重复次数 mlen: 每段长度
        int len = -1, from = 0;
        for (int i=1; i<=n && len==-1; ++i) {
            for (int j=0; j<tot; ++j) {
                int l = mlen[j];
                if (sa[i] + l > n) {
                    continue;
                }
                int lcp = query_RMQ (sa[i], sa[i] + l);
                if (lcp >= (best - 1) * l) {
                    len = l; from = sa[i];
                    break;
                }
            }
        }
        printf ("Case %d: ", ++cas);
        int L = len * best; //当字符串只有一个时,L=-1*-1=1, from=0, 输出s[0]
        for (int j=0, i=from; j<L; ++i, ++j) {
            printf ("%c", s[i]);
        }
        puts ("");
    }
    return 0;
}

  

时间: 2024-09-28 04:44:46

后缀数组 POJ 3693 Maximum repetition substring的相关文章

poj 3693 Maximum repetition substring(后缀数组)

题目链接:poj 3693 Maximum repetition substring 题目大意:求一个字符串中循环子串次数最多的子串. 解题思路:对字符串构建后缀数组,然后枚举循环长度,分区间确定.对于一个长度l,每次求出i和i+l的LCP,那么以i为起点,循环子串长度为l的子串的循环次数为LCP/l+1,然后再考虑一下从i-l+1~i之间有没有存在增长的可能性. #include <cstdio> #include <cstring> #include <vector>

POJ 3693 Maximum repetition substring (后缀数组)

题目大意: 求出字典序最小,重复次数最多,的子串. 思路分析: RMQ + height 数组可以求出任意两个后缀的lcp 我们枚举答案字符串的重复的长度. 如果这个字符串的长度为 l ,而且这个字符串出现过两次或两次以上 那么你会发现在原串中  str[0] str[l] str[2*l] ....肯定有相邻的两个被包含在重复的串中. 我们求出这两个相邻的后缀的lcp 我们上面仅仅说的是被包含在重复的串中,但并不一定就是以 str[0], str[l],str[2*l]....为起点的. 那我

POJ 3693 Maximum repetition substring(后缀数组神题)

POJ 3693 Maximum repetition substring 题目链接 题意:给定一个字符串,求出其子串中,重复次数最多的串,如果有相同的,输出字典序最小的 思路:枚举长度l,把字符串按l分段,这样对于长度为l的字符串,肯定会包含一个分段位置,这样一来就可以在每个分段位置,往后做一次lcp,求出最大匹配长度,然后如果匹配长度有剩余,看剩余多少,就往前多少位置再做一次lcp,如果匹配出来长度更长,匹配次数就加1,这样就可以枚举过程中保存下答案了 这样问题还有字典序的问题,这个完全可以

POJ 3693 Maximum repetition substring (寻找重复次数最多的连续子串)

Maximum repetition substring Time Limit: 1000MS   Memory Limit: 65536K Total Submissions: 9083   Accepted: 2782 Description The repetition number of a string is defined as the maximum number R such that the string can be partitioned into R same conse

POJ 3693 Maximum repetition substring(后缀数组+RMQ)

Maximum repetition substring The repetition number of a string is defined as the maximum number R such that the string can be partitioned into R same consecutive substrings. For example, the repetition number of "ababab" is 3 and "ababa&quo

poj 3693 Maximum repetition substring(有点麻烦的后缀数组)

Maximum repetition substring Time Limit: 1000MS   Memory Limit: 65536K Total Submissions: 6638   Accepted: 2007 Description The repetition number of a string is defined as the maximum number R such that the string can be partitioned into R same conse

POJ 3693 Maximum repetition substring(后缀数组求最长重复子串)

题目大意:和spoj687类似,就是当长度相同是需要输出一个最小的字典序的序列. 解体思路:这次需要枚举所有的从i到d = i-L/i (d = i-L%i)的位置,然后记录保证最大值的同时,求出来字典序最小的. Maximum repetition substring Time Limit: 1000MS   Memory Limit: 65536K Total Submissions: 7418   Accepted: 2217 Description The repetition numb

POJ 3693 Maximum repetition substring(最多重复次数的子串)

Maximum repetition substring Time Limit: 1000MS   Memory Limit: 65536K Total Submissions: 10461   Accepted: 3234 Description The repetition number of a string is defined as the maximum number R such that the string can be partitioned into R same cons

POJ - 3693 Maximum repetition substring(后缀数组求重复次数最多的连续重复子串)

Description The repetition number of a string is defined as the maximum number R such that the string can be partitioned into R same consecutive substrings. For example, the repetition number of "ababab" is 3 and "ababa" is 1. Given a