现在的位置: 首页 > 综合 > 正文

最长重复子串(可重复) 后缀数组

2013年12月26日 ⁄ 综合 ⁄ 共 3018字 ⁄ 字号 评论关闭

最长重复子串

时间限制:1000 ms  |  内存限制:3000 KB
描述

对于一个字符串S1,其中S2是他的一个子串(长度严格小于S1长度),如果S2S1中出现次数超过1次,那么S2就是一个重复子串,现在的要求是给定S1,请求出他的最长重复子串;

 

如果有多个长度一样的最长子串,请输入字典序最小那个串;

 

比如bbbaaaccc

 

那么最长子串就是aa

输入

第一行包含一个整数T,表示有T组数据

 

对于每组数据包含一行,该行有一个字符串,长度小于10,000

输出

对于每组数据请输出他的最长重复子串,保证每组数据都有;

样例输入
2
abacabac
abacabbac
样例输出
abac
bac
#include<iostream>
#include<cstdio>
#include<cstring>
using namespace std;
///后缀数组  倍增算法
const int maxn=500000;
char str[maxn];
int wa[maxn],wb[maxn],wv[maxn],wn[maxn],a[maxn],sa[maxn];
int cmp(int* r,int a,int b,int l)
{return r[a]==r[b]&&r[a+l]==r[b+l];}
/**n为字符串长度,m为字符的取值范围,r为字符串。后面的j为每次排
序时子串的长度*/
void DA(int* r,int* sa,int n,int m)
{
    int i,j,p,*x=wa,*y=wb,*t;
    ///对R中长度为1的子串进行基数排序
    for(i=0;i<m;i++)wn[i]=0;
    for(i=0;i<n;i++)wn[x[i]=r[i]]++;
    for(i=1;i<m;i++)wn[i]+=wn[i-1];
    for(i=n-1;i>=0;i--)sa[--wn[x[i]]]=i;
    for(j=1,p=1;p<n;j*=2,m=p)
    {
        /**利用了上一次基数排序的结果,对待排序的子串的第二关键字进行
        了一次高效地基数排序*/
        for(p=0,i=n-j;i<n;i++)y[p++]=i;
        for(i=0;i<n;i++)if(sa[i]>=j)y[p++]=sa[i]-j;
        ///基数排序
        for(i=0;i<n;i++)wv[i]=x[y[i]];
        for(i=0;i<m;i++)wn[i]=0;
        for(i=0;i<n;i++)wn[wv[i]]++;
        for(i=1;i<m;i++)wn[i]+=wn[i-1];
        for(i=n-1;i>=0;i--)sa[--wn[wv[i]]]=y[i];
        ///当p=n的时候,说明所有串都已经排好序了
        ///在第一次排序以后,rank数组中的最大值小于p,所以让m=p
        for(t=x,x=y,y=t,p=1,x[sa[0]]=0,i=1;i<n;i++)
            x[sa[i]]=cmp(y,sa[i-1],sa[i],j)?p-1:p++;
    }
    return;
}
///后缀数组  计算height数组
/**
height数组的值应该是从height[1]开始的,而且height[1]应该是等于0的。
原因是,+因为我们在字符串后面添加了一个0号字符,所以它必然是最小的
一个后缀。而字符串中的其他字符都应该是大于0的(前面有提到,使用倍
增算法前需要确保这点),所以排名第二的字符串和0号字符的公共前缀
(即height[1])应当为0.在调用calheight函数时,要注意height数组的范
围应该是[1..n]。所以调用时应该是calheight(r,sa,n)
而不是calheight(r,sa,n+1)。*/
int rank[maxn],height[maxn];
void calheight(int* r,int* sa,int n)
{
    int i,j,k=0;
    for(i=1;i<=n;i++)rank[sa[i]]=i;
    for(i=0;i<n;height[rank[i++]]=k)
    for(k?k--:0,j=sa[rank[i]-1];r[i+k]==r[j+k];k++);
    return;
}
int main()
{
    int ci;scanf("%d",&ci);
    while(ci--)
    {
        scanf("%s",str);//待处理字符串
        //后缀数组 倍增算法 使用方法
        /**
        在使用倍增算法前,需要保证r数组的值均大于0。然后要在原字
        符串后添加一个0号字符,具体原因参见罗穗骞的论文。这时候,
        若原串的长度为n,则实际要进行后缀数组构建的r数组的长度应
        该为n+1.所以调用DA函数时,对应的n应为n+1.*/
        int n=strlen(str);
        for(int i=0;i<n;i++) a[i]=(int)str[i];
        a[n]=0;
        DA(a,sa,n+1,256);
        calheight(a,sa,n);
        //....................................
        /**1. 求最长重复子串(可重叠)
        任何一个重复子串,都必然是某两个后缀的最长公共前缀。因为,
        两个后缀的公共前缀,它出现在这两个后缀中,并且起始位置时不
        同的,所以这个公共前缀必然重复出现两次以上(可重叠)。而任
        何两个后缀的最长公共前缀为某一段height值中的最小值,所以最
        大为height值中的最大值(即某个lcp(sa[i],sa[i+1]))。所以只
        要算出height数组,然后输出最大值就可以了。*/
        int _max=-1,pos;
        for(int i=1;i<=n;i++)
        {
            if(height[i]>_max)
            {
                _max=height[i];
                pos=sa[i];//sa数组已经按照字典序列排好
            }
        }
        for(int i=pos,j=0;j<_max;i++,j++) printf("%c",str[i]);printf("/n");
    }
    return 0;
}
/**
2.后缀的最长公共前缀。(记为lcp(x,y))
这是height数组的最基本性质之一。具体的可以参看罗穗骞的论文。
后缀i和后缀j的最长公共前缀的长度为它们在sa数组中所在排位之间
的height值中的最小值。这个描述可能有点乱,正规的说,令x=rank[i],y=rank[j],
x<y,那么lcp(i,j)=min(height[x+1],height[x+2]...height[y])。lcp(i,i)=n-sa[i]。
解决这个问题,用RMQ的ST算法即可*/

抱歉!评论已关闭.