后缀数组总结

来源:互联网 发布:詹姆斯选秀体测数据 编辑:程序博客网 时间:2024/06/14 07:29

第二遍刷后缀数组的论文题了,记录一下思路


先贴一下几种求sa的模板

n*logn*logn 的快速排序

/*时间复杂度n*logn*logn模板的调用build_sa(s,n)     //n为原来字符串的长度N=n;*/int Rank[MAXN+1],tmp[MAXN+1],sa[MAXN+1],l,s[MAXN+1],N;bool compare_sa(int i,int j){    if(Rank[i]!=Rank[j])        return Rank[i]<Rank[j];    else{        int ri=i+l<=N? Rank[i+l]:-1;        int rj=j+l<=N? Rank[j+l]:-1;        return ri<rj;    }}//计算字符串s的后缀数组void build_sa(int s[],int n){    for(int i=0;i<=n;i++){        sa[i]=i;        Rank[i]=i<n ? s[i]:-1;    }    //利用对长度为k的排序结果对长度为2k的排序    for(l=1;l<=n;l*=2){        sort(sa,sa+n+1,compare_sa);        tmp[sa[0]]=0;   //先在tmp中临时存储新计算的Rank,再转存回Rank中        for(int i=1;i<=n;i++)            tmp[sa[i]]=tmp[sa[i-1]]+(compare_sa(sa[i-1],sa[i])?1:0);        for(int i=0;i<=n;i++)            Rank[i]=tmp[i];    }}

n*logn的基数排序

/**倍增算法nlogn*将待排序数组放在0~n-1中,在最后补一个0*build(,n+1,);//注意是n+1*getHeight(,n);*例如:*n   = 8;*num[]   = { 1, 1, 2, 1, 1, 1, 1, 2, $ };注意num最后一位为0,其他大于0*Rank[]  = { 4, 6, 8, 1, 2, 3, 5, 7, 0 };Rank[0~n-1]为有效值,Rank[n]必定为0无效值*sa[]    = { 8, 3, 4, 5, 0, 6, 1, 7, 2 };sa[1~n]为有效值,sa[0]必定为n是无效值*height[]= { 0, 0, 3, 2, 3, 1, 2, 0, 1 };height[2~n]为有效值*/int s[maxn];int sa[maxn],t1[maxn],t2[maxn],c[maxn];//构造字符串S的后缀数组,每个字符值必须为0~m-1void build_sa(int s[],int n,int m){    int *x=t1,*y=t2;    for(int i=0;i<m;i++)    c[i]=0;    for(int i=0;i<n;i++)    c[x[i]=s[i]]++;    for(int i=1;i<m;i++)    c[i]+=c[i-1];    for(int i=n-1;i>=0;i--)     sa[--c[x[i]]]=i;    for(int k=1;k<=n;k<<=1){        int p=0;        for(int i=n-k;i<n;i++)  y[p++]=i;        for(int i=0;i<n;i++)    if(sa[i]>=k)    y[p++]=sa[i]-k;        for(int i=0;i<m;i++)    c[i]=0;        for(int i=0;i<n;i++)    c[x[y[i]]]++;        for(int i=0;i<m;i++)    c[i]+=c[i-1];        for(int i=n-1;i>=0;i--)    sa[--c[x[y[i]]]]=y[i];        swap(x,y);        p=1;x[sa[0]]=0;        for(int i=1;i<n;i++)            x[sa[i]]=y[sa[i-1]]==y[sa[i]]&&y[sa[i-1]+k]==y[sa[i]+k] ? p-1:p++;        if(p>=n)    break;        m=p;    }}

O(n)的DC3

/*dc3(s,sa,n+1,123)的调用sa数组和s数组应该扩大3*/int ws[maxn],wa[maxn],wb[maxn],wv[maxn],sa[maxn],f[maxn];char str[maxn];int s[maxn];//dc3#define F(x) ((x)/3+((x)%3==1?0:tb))#define G(x) ((x)<tb?(x)*3+1:((x)-tb)*3+2)int c0(int *r,int a,int b){    return r[a]==r[b]&&r[a+1]==r[b+1]&&r[a+2]==r[b+2];}int c12(int k,int *r,int a,int b){    if(k==2) return r[a]<r[b]||r[a]==r[b]&&c12(1,r,a+1,b+1);    else return r[a]<r[b]||r[a]==r[b]&&wv[a+1]<wv[b+1];}void sort(int *r,int *a,int *b,int n,int m){    int i;    for(i=0; i<n; i++) wv[i]=r[a[i]];    for(i=0; i<m; i++) ws[i]=0;    for(i=0; i<n; i++) ws[wv[i]]++;    for(i=1; i<m; i++) ws[i]+=ws[i-1];    for(i=n-1; i>=0; i--) b[--ws[wv[i]]]=a[i];    return;}void dc3(int *r,int *sa,int n,int m){    int i,j,*rn=r+n,*san=sa+n,ta=0,tb=(n+1)/3,tbc=0,p;    r[n]=r[n+1]=0;    for(i=0; i<n; i++) if(i%3!=0) wa[tbc++]=i;    sort(r+2,wa,wb,tbc,m);    sort(r+1,wb,wa,tbc,m);    sort(r,wa,wb,tbc,m);    for(p=1,rn[F(wb[0])]=0,i=1; i<tbc; i++)        rn[F(wb[i])]=c0(r,wb[i-1],wb[i])?p-1:p++;    if(p<tbc) dc3(rn,san,tbc,p);    else for(i=0; i<tbc; i++) san[rn[i]]=i;    for(i=0; i<tbc; i++) if(san[i]<tb) wb[ta++]=san[i]*3;    if(n%3==1) wb[ta++]=n-1;    sort(r,wb,wa,ta,m);    for(i=0; i<tbc; i++) wv[wb[i]=G(san[i])]=i;    for(i=0,j=0,p=0; i<ta && j<tbc; p++)        sa[p]=c12(wb[j]%3,r,wa[i],wb[j])?wa[i++]:wb[j++];    for(; i<ta; p++) sa[p]=wa[i++];    for(; j<tbc; p++) sa[p]=wb[j++];    return;}

height数组的求解和RMQ的使用

int Rank[maxn],height[maxn];//getHeight(,n);void getHeight(int s[],int n){    int k=0;    for(int i=0;i<=n;i++)   Rank[sa[i]]=i;    for(int i=0;i<n;i++){        if(k)   k--;        int j=sa[Rank[i]-1];        while(s[i+k]==s[j+k])   k++;        height[Rank[i]]=k;    }}int dp[maxn][20];void RMQ_init(int n){    for(int i=1;i<=n;i++)   dp[i][0]=height[i];    for(int j=1;(1<<j)<=n;j++)        for(int i=1;i+(1<<j)-1<=n;i++)            dp[i][j]=min(dp[i][j-1],dp[i+(1<<(j-1))][j-1]);}//L和R表示在字符串中的位置,rmq表示查询[L,R]之间的最长公共后缀int rmq(int L,int R){    if(L==R)        return N-R+1;//N定义为strlen(n)    L=Rank[L],R=Rank[R];    if(L>R)        swap(L,R);    L++;    int k=(int)log2(R-L+1);    return min(dp[L][k],dp[R-(1<<k)+1][k]);}

接下来是对应论文中的一些题目。

重复子串

  • poj 1743 给定一个字符串,求最长重复子串,这两个子串不能重叠。
    传送门:poj 1743 Musical Theme

    思路:先求出sa和height,然后二分答案,假设答案为k,把连续height大于等于k的放在一组,对于每一组中的判断,只要判断这一组中sa的最小值和最大值之差是否大于等于k(只要有一组成立这个答案便是合法的)


#include<algorithm>#include<cstdio>#include<cmath>using namespace std;const int maxn=20100;/**倍增算法nlogn*将待排序数组放在0~n-1中,在最后补一个0*build(,n+1,);//注意是n+1*getHeight(,n);*例如:*n   = 8;*num[]   = { 1, 1, 2, 1, 1, 1, 1, 2, $ };注意num最后一位为0,其他大于0*Rank[]  = { 4, 6, 8, 1, 2, 3, 5, 7, 0 };Rank[0~n-1]为有效值,Rank[n]必定为0无效值*sa[]    = { 8, 3, 4, 5, 0, 6, 1, 7, 2 };sa[1~n]为有效值,sa[0]必定为n是无效值*height[]= { 0, 0, 3, 2, 3, 1, 2, 0, 1 };height[2~n]为有效值*/int s[maxn];int sa[maxn],t1[maxn],t2[maxn],c[maxn];//构造字符串S的后缀数组,每个字符值必须为0~m-1void build_sa(int s[],int n,int m){    int *x=t1,*y=t2;    for(int i=0;i<m;i++)    c[i]=0;    for(int i=0;i<n;i++)    c[x[i]=s[i]]++;    for(int i=1;i<m;i++)    c[i]+=c[i-1];    for(int i=n-1;i>=0;i--)     sa[--c[x[i]]]=i;    for(int k=1;k<=n;k<<=1){        int p=0;        for(int i=n-k;i<n;i++)  y[p++]=i;        for(int i=0;i<n;i++)    if(sa[i]>=k)    y[p++]=sa[i]-k;        for(int i=0;i<m;i++)    c[i]=0;        for(int i=0;i<n;i++)    c[x[y[i]]]++;        for(int i=0;i<m;i++)    c[i]+=c[i-1];        for(int i=n-1;i>=0;i--)    sa[--c[x[y[i]]]]=y[i];        swap(x,y);        p=1;x[sa[0]]=0;        for(int i=1;i<n;i++)            x[sa[i]]=y[sa[i-1]]==y[sa[i]]&&y[sa[i-1]+k]==y[sa[i]+k] ? p-1:p++;        if(p>=n)    break;        m=p;    }}int Rank[maxn],height[maxn];void getHeight(int s[],int n){    int k=0;    for(int i=0;i<=n;i++)   Rank[sa[i]]=i;    for(int i=0;i<n;i++){        if(k)   k--;        int j=sa[Rank[i]-1];        while(s[i+k]==s[j+k])   k++;        height[Rank[i]]=k;    }}const int INF=0x3f3f3f3f;bool check(int num,int n){    int minv=INF,maxv=0;    for(int i=2;i<=n;i++){        if(height[i]>=num){            minv=min(minv,min(sa[i],sa[i-1]));            maxv=max(maxv,max(sa[i],sa[i-1]));            if(maxv-minv>=num)                return true;        }        else            minv=INF,maxv=0;    }    return false;}int a[maxn];int main(){    int n;    while(scanf("%d",&n)!=EOF){        if(n==0)            break;        for(int i=0;i<n;i++)            scanf("%d",&a[i]);        for(int i=0;i<n-1;i++)            s[i]=a[i+1]-a[i]+100;        n--,s[n]=0;        build_sa(s,n+1,189);        getHeight(s,n);        int low=0,high=n,ans=0;        while(high-low>=0){            int mid=(high+low)>>1;            if(check(mid,n))                low=mid+1,ans=mid+1;            else                high=mid-1;        }        printf("%d\n",ans<5 ? 0 :ans);    }    return 0;}
  • poj 3261 给定一个字符串,求至少出现k次的最长重复子串,这k个子串可以重叠。
    传送门:poj 3261 Milk Patterns

思路:二分答案x,然后对height进行分组,判断有没有一组它的合法的height数目>=k-1

#include<algorithm>#include<cstring>#include<cmath>#include<cstdio>using namespace std;const int MAXN=41000;/*时间复杂度n*logn*logn模板的调用build_sa(s,n)     //n为原来字符串的长度N=n;*/int Rank[MAXN+1],tmp[MAXN+1],sa[MAXN+1],l,s[MAXN+1],N;bool compare_sa(int i,int j){    if(Rank[i]!=Rank[j])        return Rank[i]<Rank[j];    else{        int ri=i+l<=N? Rank[i+l]:-1;        int rj=j+l<=N? Rank[j+l]:-1;        return ri<rj;    }}//计算字符串s的后缀数组void build_sa(int s[],int n){    for(int i=0;i<=n;i++){        sa[i]=i;        Rank[i]=i<n ? s[i]:-1;    }    //利用对长度为k的排序结果对长度为2k的排序    for(l=1;l<=n;l*=2){        sort(sa,sa+n+1,compare_sa);        tmp[sa[0]]=0;   //先在tmp中临时存储新计算的Rank,再转存回Rank中        for(int i=1;i<=n;i++)            tmp[sa[i]]=tmp[sa[i-1]]+(compare_sa(sa[i-1],sa[i])?1:0);        for(int i=0;i<=n;i++)            Rank[i]=tmp[i];    }}int height[MAXN+1];void getHeight(int s[],int n){    int k=0;    for(int i=0;i<=n;i++)   Rank[sa[i]]=i;    for(int i=0;i<n;i++){        if(k)   k--;        int j=sa[Rank[i]-1];        while(s[i+k]==s[j+k])   k++;        height[Rank[i]]=k;    }}bool check(int num,int k,int n){    int cnt=0;    for(int i=2;i<=n;i++){        if(height[i]>=num){            cnt++;            if(cnt>=k-1)                return true;        }        else            cnt=0;    }    return false;}int main(){    int n,time;    while(scanf("%d%d",&n,&time)!=EOF){        for(int i=0;i<n;i++)            scanf("%d",&s[i]),s[i]++;        s[n]=0,N=n;        build_sa(s,n);        getHeight(s,n);        int low=0,high=n,ans=0;        while(high-low>=0){            int mid=low+high>>1;            if(check(mid,time,n))                low=mid+1,ans=mid;            else                high=mid-1;        }        printf("%d\n",ans);    }    return 0;}

发散思维:给定一个字符串,求至少出现k次的最长重复子串,这k个子串不可重叠。

思路一:二分答案x,然后对于height分组,对于每一组中所有的开头,我们将其排序,贪心取第一个之后,判断是否有一组他能选取的总数大于等于k。

时间复杂度n*logn*logn

思路二:二分答案x,然后处理出每个点之后距离这个点长度为x-1的Hash值,建立一个next表,判断有没有一个next表的长度大于等于k(如果当前点和上一个相同next值之间距离小于x的直接不加人)

时间复杂度:n*logn


子串的个数

  • spoj 694 给定一个字符串,求不相同的子串的个数。
    传送门:spoj 649 Distinct Substrings

    思路:如果不算重复的,那么总的子串的个数为strlen(s)*(strlen(s)-1)/2,每个子串一定是某个后缀的前缀,那么原问题等价于求所有后缀之间的不相同子串个数。因为每个子串只能被重复计算一次,那么再减掉height[i]的和就是答案

/*spoj694给定一个字符串,求不相同的子串的个数。*/#include<algorithm>#include<cstdio>#include<cmath>#include<cstring>using namespace std;const int maxn=20100;/**倍增算法nlogn*将待排序数组放在0~n-1中,在最后补一个0*build(,n+1,);//注意是n+1*getHeight(,n);*例如:*n   = 8;*num[]   = { 1, 1, 2, 1, 1, 1, 1, 2, $ };注意num最后一位为0,其他大于0*Rank[]  = { 4, 6, 8, 1, 2, 3, 5, 7, 0 };Rank[0~n-1]为有效值,Rank[n]必定为0无效值*sa[]    = { 8, 3, 4, 5, 0, 6, 1, 7, 2 };sa[1~n]为有效值,sa[0]必定为n是无效值*height[]= { 0, 0, 3, 2, 3, 1, 2, 0, 1 };height[2~n]为有效值*/int s[maxn];char str[maxn];int sa[maxn],t1[maxn],t2[maxn],c[maxn];//构造字符串S的后缀数组,每个字符值必须为0~m-1void build_sa(int s[],int n,int m){    int *x=t1,*y=t2;    for(int i=0;i<m;i++)    c[i]=0;    for(int i=0;i<n;i++)    c[x[i]=s[i]]++;    for(int i=1;i<m;i++)    c[i]+=c[i-1];    for(int i=n-1;i>=0;i--)     sa[--c[x[i]]]=i;    for(int k=1;k<=n;k<<=1){        int p=0;        for(int i=n-k;i<n;i++)  y[p++]=i;        for(int i=0;i<n;i++)    if(sa[i]>=k)    y[p++]=sa[i]-k;        for(int i=0;i<m;i++)    c[i]=0;        for(int i=0;i<n;i++)    c[x[y[i]]]++;        for(int i=0;i<m;i++)    c[i]+=c[i-1];        for(int i=n-1;i>=0;i--)    sa[--c[x[y[i]]]]=y[i];        swap(x,y);        p=1;x[sa[0]]=0;        for(int i=1;i<n;i++)            x[sa[i]]=y[sa[i-1]]==y[sa[i]]&&y[sa[i-1]+k]==y[sa[i]+k] ? p-1:p++;        if(p>=n)    break;        m=p;    }}int Rank[maxn],height[maxn];void getHeight(int s[],int n){    int k=0;    for(int i=0;i<=n;i++)   Rank[sa[i]]=i;    for(int i=0;i<n;i++){        if(k)   k--;        int j=sa[Rank[i]-1];        while(s[i+k]==s[j+k])   k++;        height[Rank[i]]=k;    }}int main(){    int n,k;    int _;    scanf("%d",&_);    while(_--){        scanf("%s",str);        int n=strlen(str);        int ans=(n+1)*n/2;        for(int i=0;i<=n;i++)            s[i]=str[i];        build_sa(s,n+1,128);        getHeight(s,n);        for(int i=2;i<=n;i++)            ans-=height[i];        printf("%d\n",ans);    }    return 0;}
  • Hdu 5769 Substring
    题意:给你一个字符串和一个字符,问有多少个不同的子串包括这个字符。

    思路:先求出总共有多少个不同的,然后比如相邻两个x的位置分别是x1,x2, 减去所有相邻的之间的方案数,再加上相邻之间重复的。

#include <iostream>#include <string.h>#include <algorithm>#include <stdio.h>using namespace std;const int MAXN=100100;int sa[MAXN];int t1[MAXN],t2[MAXN],c[MAXN];int Rank[MAXN],height[MAXN];void build_sa(int s[],int n,int m){    int i,j,p,*x=t1,*y=t2;    for(i=0;i<m;i++)c[i]=0;    for(i=0;i<n;i++)c[x[i]=s[i]]++;    for(i=1;i<m;i++)c[i]+=c[i-1];    for(i=n-1;i>=0;i--)sa[--c[x[i]]]=i;    for(j=1;j<=n;j<<=1)    {        p=0;        for(i=n-j;i<n;i++)y[p++]=i;        for(i=0;i<n;i++)if(sa[i]>=j)y[p++]=sa[i]-j;        for(i=0;i<m;i++)c[i]=0;        for(i=0;i<n;i++)c[x[y[i]]]++;        for(i=1;i<m;i++)c[i]+=c[i-1];        for(i=n-1;i>=0;i--)sa[--c[x[y[i]]]]=y[i];        swap(x,y);        p=1;x[sa[0]]=0;        for(i=1;i<n;i++)            x[sa[i]]=y[sa[i-1]]==y[sa[i]] && y[sa[i-1]+j]==y[sa[i]+j]?p-1:p++;        if(p>=n)break;        m=p;    }}void getHeight(int s[],int n){    int i,j,k=0;    for(i=0;i<=n;i++)Rank[sa[i]]=i;    for(i=0;i<n;i++)    {        if(k)k--;        j=sa[Rank[i]-1];        while(s[i+k]==s[j+k])k++;        height[Rank[i]]=k;    }}char str[MAXN],s1[2];int s[MAXN],e[MAXN];int main(){    int T;    scanf("%d",&T);    for(int case1=1;case1<=T;case1++)    {        scanf("%s",s1);        scanf("%s",str);        int n=strlen(str);        for(int i=0;i<=n;i++)s[i]=str[i];        build_sa(s,n+1,128);        getHeight(s,n);        long long ans=1LL*n*(n+1)/2;        int ed=n;//ed刚开始表示总长度        for(int i=n-1;i>=0;i--){            if(str[i]==s1[0])  //i表示有字母s1[0]                ans-=1LL*(ed-i)*(ed-i-1)/2,ed=i;            else                e[i]=ed;        }        if(str[0]!=s1[0])            ans-=1LL*ed*(ed+1)/2;        for(int i=2;i<=n;i++){            ans-=height[i];            if(str[sa[i]]!=s1[0])                ans+=min(height[i],e[sa[i]]-sa[i]);        }        printf("Case #%d: %lld\n",case1,ans);    }    return 0;}

连续重复子串

  • poj 2406 给定一个字符串L,已知这个字符串是由某个字符串重复R次得到的,求R的最大值
    传送门:poj 2406 Power Strings

    思路:利用height数组预处理出每个开始的位置和0的最长公共子串same, 如果same==n-i&&same%i==0,更新答案

#include<algorithm>#include<cstdio>#include<cmath>#include<cstring>using namespace std;const int maxn=1001000;int ws[maxn],wa[maxn],wb[maxn],wv[maxn],sa[3*maxn],f[maxn];char str[maxn];int s[3*maxn];//dc3#define F(x) ((x)/3+((x)%3==1?0:tb))#define G(x) ((x)<tb?(x)*3+1:((x)-tb)*3+2)int c0(int *r,int a,int b){    return r[a]==r[b]&&r[a+1]==r[b+1]&&r[a+2]==r[b+2];}int c12(int k,int *r,int a,int b){    if(k==2) return r[a]<r[b]||r[a]==r[b]&&c12(1,r,a+1,b+1);    else return r[a]<r[b]||r[a]==r[b]&&wv[a+1]<wv[b+1];}void sort(int *r,int *a,int *b,int n,int m){    int i;    for(i=0; i<n; i++) wv[i]=r[a[i]];    for(i=0; i<m; i++) ws[i]=0;    for(i=0; i<n; i++) ws[wv[i]]++;    for(i=1; i<m; i++) ws[i]+=ws[i-1];    for(i=n-1; i>=0; i--) b[--ws[wv[i]]]=a[i];    return;}void dc3(int *r,int *sa,int n,int m){    int i,j,*rn=r+n,*san=sa+n,ta=0,tb=(n+1)/3,tbc=0,p;    r[n]=r[n+1]=0;    for(i=0; i<n; i++) if(i%3!=0) wa[tbc++]=i;    sort(r+2,wa,wb,tbc,m);    sort(r+1,wb,wa,tbc,m);    sort(r,wa,wb,tbc,m);    for(p=1,rn[F(wb[0])]=0,i=1; i<tbc; i++)        rn[F(wb[i])]=c0(r,wb[i-1],wb[i])?p-1:p++;    if(p<tbc) dc3(rn,san,tbc,p);    else for(i=0; i<tbc; i++) san[rn[i]]=i;    for(i=0; i<tbc; i++) if(san[i]<tb) wb[ta++]=san[i]*3;    if(n%3==1) wb[ta++]=n-1;    sort(r,wb,wa,ta,m);    for(i=0; i<tbc; i++) wv[wb[i]=G(san[i])]=i;    for(i=0,j=0,p=0; i<ta && j<tbc; p++)        sa[p]=c12(wb[j]%3,r,wa[i],wb[j])?wa[i++]:wb[j++];    for(; i<ta; p++) sa[p]=wa[i++];    for(; j<tbc; p++) sa[p]=wb[j++];    return;}int Rank[maxn],height[maxn];void getHeight(int s[],int n){    int k=0;    for(int i=0;i<=n;i++)   Rank[sa[i]]=i;    for(int i=0;i<n;i++){        if(k)   k--;        int j=sa[Rank[i]-1];        while(s[i+k]==s[j+k])   k++;        height[Rank[i]]=k;    }}int minv[maxn];int main(){    while(scanf("%s",str)!=EOF){        if(str[0]=='.')            break;        int n=strlen(str);        for(int i=0;i<=n;i++)            s[i]=str[i];        dc3(s,sa,n+1,128);        getHeight(s,n);        int now=n;//排在第0位的height        for(int i=Rank[0]+1;i<=n;i++){ //Rank比0开始的大的            now=min(now,height[i]);            minv[sa[i]]=now;        }        now=n;        for(int i=Rank[0]-1;i>=0;i--){            now=min(now,height[i+1]);            minv[sa[i]]=now;        }        int ans=1;        for(int i=1;i<=n;i++){            int same=minv[i];            if(same==n-i&&same%i==0)                ans=max(ans,same/i+1);        }        printf("%d\n",ans);    }    return 0;}
  • spoj 687 给定一个字符串,求重复次数最多的连续重复子串。
    传送门:spoj 687 Repeats

    思路:先枚举长度L,下一步是枚举开头,开头只需要枚举L的倍数,为什么呢?
    i到i+L-1开头的最长公共前缀要么是小于等于i的前缀,要么是包含了i+L开头的最长公共前缀(这个在接下来会被包含进去)
    接下来表示解决上面残留下来的第二个问题
    我们不妨先算一下,从s[i*L]开始,除了匹配len/L个循环节之外,还剩余了len%L个,令pre=i-(L-len%L)重新计算一下便可以了。

#include<algorithm>#include<cstdio>#include<cmath>using namespace std;const int maxn=50100;/**倍增算法nlogn*将待排序数组放在0~n-1中,在最后补一个0*build(,n+1,);//注意是n+1*getHeight(,n);*例如:*n   = 8;*num[]   = { 1, 1, 2, 1, 1, 1, 1, 2, $ };注意num最后一位为0,其他大于0*Rank[]  = { 4, 6, 8, 1, 2, 3, 5, 7, 0 };Rank[0~n-1]为有效值,Rank[n]必定为0无效值*sa[]    = { 8, 3, 4, 5, 0, 6, 1, 7, 2 };sa[1~n]为有效值,sa[0]必定为n是无效值*height[]= { 0, 0, 3, 2, 3, 1, 2, 0, 1 };height[2~n]为有效值*/int s[maxn];int sa[maxn],t1[maxn],t2[maxn],c[maxn];//构造字符串S的后缀数组,每个字符值必须为0~m-1void build_sa(int s[],int n,int m){    int *x=t1,*y=t2;    for(int i=0;i<m;i++)    c[i]=0;    for(int i=0;i<n;i++)    c[x[i]=s[i]]++;    for(int i=1;i<m;i++)    c[i]+=c[i-1];    for(int i=n-1;i>=0;i--)     sa[--c[x[i]]]=i;    for(int k=1;k<=n;k<<=1){        int p=0;        for(int i=n-k;i<n;i++)  y[p++]=i;        for(int i=0;i<n;i++)    if(sa[i]>=k)    y[p++]=sa[i]-k;        for(int i=0;i<m;i++)    c[i]=0;        for(int i=0;i<n;i++)    c[x[y[i]]]++;        for(int i=0;i<m;i++)    c[i]+=c[i-1];        for(int i=n-1;i>=0;i--)    sa[--c[x[y[i]]]]=y[i];        swap(x,y);        p=1;x[sa[0]]=0;        for(int i=1;i<n;i++)            x[sa[i]]=y[sa[i-1]]==y[sa[i]]&&y[sa[i-1]+k]==y[sa[i]+k] ? p-1:p++;        if(p>=n)    break;        m=p;    }}int Rank[maxn],height[maxn];void getHeight(int s[],int n){    int k=0;    for(int i=0;i<=n;i++)   Rank[sa[i]]=i;    for(int i=0;i<n;i++){        if(k)   k--;        int j=sa[Rank[i]-1];        while(s[i+k]==s[j+k])   k++;        height[Rank[i]]=k;    }}int dp[maxn][20];void RMQ_init(int n){    for(int i=1;i<=n;i++)   dp[i][0]=height[i];    for(int j=1;(1<<j)<=n;j++)        for(int i=1;i+(1<<j)-1<=n;i++)            dp[i][j]=min(dp[i][j-1],dp[i+(1<<(j-1))][j-1]);}int rmq(int L,int R){    L=Rank[L],R=Rank[R];    if(L>R)        swap(L,R);    L++;    int k=(int)log2(R-L+1);    return min(dp[L][k],dp[R-(1<<k)+1][k]);}int main(){    int _,n;    scanf("%d",&_);    while(_--){        scanf("%d",&n);        char c[2];        for(int i=0;i<n;i++)            scanf("%s",c),s[i]=c[0]-'a'+1;        s[n]=0;        build_sa(s,n+1,10);        getHeight(s,n);        RMQ_init(n);        int maxv=1;        for(int l=1;l<=n/2;l++) //枚举长度            for(int i=0;i<=n;i+=l){                if(i+l>n)                    continue;                int len=rmq(i,i+l);                //printf("%d %d %d\n",i,i+l,len);                int tmp=len/l+1,pre=i-(l-len%l);                if((len%l!=0)&&pre>=0)                    if(rmq(pre,pre+l)>=l)                        tmp++;                maxv=max(maxv,tmp);            }        printf("%d\n",maxv);    }    return 0;}

两个字符串相关的问题

常见的一种做法是先连接两个字符串,然后求后缀数组和height数组,利用height数组进行求解。

  • poj 2774 给你两个字符串A,B,求最长公共子串
    传送门:poj2774 Long Long Message

    思路:字符串的任何一个子串都是这个字符串的某个后缀的前缀->由于要计算 A 的后缀和 B 的后缀的最长公共前缀,所以先将第二个字符串写在第一个字符串后面,中间用一个没有出现过的字符隔开,再求这个新的字符串的后缀数组。->当 suffix(sa[i-1])和suffix(sa[i])不是同一个字符串中的两个后缀时,判断答案。

#include<algorithm>#include<cstdio>#include<cmath>#include<cstring>using namespace std;const int maxn=200100;/**倍增算法nlogn*将待排序数组放在0~n-1中,在最后补一个0*build(,n+1,);//注意是n+1*getHeight(,n);*例如:*n   = 8;*num[]   = { 1, 1, 2, 1, 1, 1, 1, 2, $ };注意num最后一位为0,其他大于0*Rank[]  = { 4, 6, 8, 1, 2, 3, 5, 7, 0 };Rank[0~n-1]为有效值,Rank[n]必定为0无效值*sa[]    = { 8, 3, 4, 5, 0, 6, 1, 7, 2 };sa[1~n]为有效值,sa[0]必定为n是无效值*height[]= { 0, 0, 3, 2, 3, 1, 2, 0, 1 };height[2~n]为有效值*/int s[maxn];int sa[maxn],t1[maxn],t2[maxn],c[maxn];//构造字符串S的后缀数组,每个字符值必须为0~m-1void build_sa(int s[],int n,int m){    int *x=t1,*y=t2;    for(int i=0;i<m;i++)    c[i]=0;    for(int i=0;i<n;i++)    c[x[i]=s[i]]++;    for(int i=1;i<m;i++)    c[i]+=c[i-1];    for(int i=n-1;i>=0;i--)     sa[--c[x[i]]]=i;    for(int k=1;k<=n;k<<=1){        int p=0;        for(int i=n-k;i<n;i++)  y[p++]=i;        for(int i=0;i<n;i++)    if(sa[i]>=k)    y[p++]=sa[i]-k;        for(int i=0;i<m;i++)    c[i]=0;        for(int i=0;i<n;i++)    c[x[y[i]]]++;        for(int i=0;i<m;i++)    c[i]+=c[i-1];        for(int i=n-1;i>=0;i--)    sa[--c[x[y[i]]]]=y[i];        swap(x,y);        p=1;x[sa[0]]=0;        for(int i=1;i<n;i++)            x[sa[i]]=y[sa[i-1]]==y[sa[i]]&&y[sa[i-1]+k]==y[sa[i]+k] ? p-1:p++;        if(p>=n)    break;        m=p;    }}int Rank[maxn],height[maxn];void getHeight(int s[],int n){    int k=0;    for(int i=0;i<=n;i++)   Rank[sa[i]]=i;    for(int i=0;i<n;i++){        if(k)   k--;        int j=sa[Rank[i]-1];        while(s[i+k]==s[j+k])   k++;        height[Rank[i]]=k;    }}char str[maxn];int main(){    while(scanf("%s",str)!=EOF){        int len=strlen(str);        str[len]='$';        scanf("%s",str+len+1);        //printf("%s\n",str);        int n=strlen(str);        for(int i=0;i<=n;i++)            s[i]=str[i];        build_sa(s,n+1,128);        getHeight(s,n);        int ans=0;        for(int i=2;i<=n;i++){            if(1LL*(sa[i]-len)*(sa[i-1]-len)<0)                ans=max(ans,height[i]);        }        printf("%d\n",ans);    }}

子串的个数

  • poj 3415 给定两个字符串 A 和 B,求长度不小于 k 的公共子串的个数(可以相同) 。
    传送门:poj 3415 Common Substrings

    思路:基本思路是计算 A 的所有后缀和 B 的所有后缀之间的最长公共前缀的长度,把最长公共前缀长度不小于 k 的部分全部加起来。先将两个字符串连起来,中间用一个没有出现过的字符隔开。按 height 值分组后,接下来的工作便是快速的统计每组中后缀之间的最长公共前缀之和。扫描一遍,每遇到一个 B 的后缀就统计与前面的 A 的后缀能产生多少个长度不小于 k 的公共子串, 这里 A 的后缀需要用一个单调的栈来高效的维护。然后对 A 也这样做一次。

#include<algorithm>#include<cstdio>#include<cmath>#include<cstring>using namespace std;const int maxn=401000;/**倍增算法nlogn*将待排序数组放在0~n-1中,在最后补一个0*build(,n+1,);//注意是n+1*getHeight(,n);*例如:*n   = 8;*num[]   = { 1, 1, 2, 1, 1, 1, 1, 2, $ };注意num最后一位为0,其他大于0*Rank[]  = { 4, 6, 8, 1, 2, 3, 5, 7, 0 };Rank[0~n-1]为有效值,Rank[n]必定为0无效值*sa[]    = { 8, 3, 4, 5, 0, 6, 1, 7, 2 };sa[1~n]为有效值,sa[0]必定为n是无效值*height[]= { 0, 0, 3, 2, 3, 1, 2, 0, 1 };height[2~n]为有效值*/int s[maxn];int sa[maxn],t1[maxn],t2[maxn],c[maxn];//构造字符串S的后缀数组,每个字符值必须为0~m-1void build_sa(int s[],int n,int m){    int *x=t1,*y=t2;    for(int i=0;i<m;i++)    c[i]=0;    for(int i=0;i<n;i++)    c[x[i]=s[i]]++;    for(int i=1;i<m;i++)    c[i]+=c[i-1];    for(int i=n-1;i>=0;i--)     sa[--c[x[i]]]=i;    for(int k=1;k<=n;k<<=1){        int p=0;        for(int i=n-k;i<n;i++)  y[p++]=i;        for(int i=0;i<n;i++)    if(sa[i]>=k)    y[p++]=sa[i]-k;        for(int i=0;i<m;i++)    c[i]=0;        for(int i=0;i<n;i++)    c[x[y[i]]]++;        for(int i=0;i<m;i++)    c[i]+=c[i-1];        for(int i=n-1;i>=0;i--)    sa[--c[x[y[i]]]]=y[i];        swap(x,y);        p=1;x[sa[0]]=0;        for(int i=1;i<n;i++)            x[sa[i]]=y[sa[i-1]]==y[sa[i]]&&y[sa[i-1]+k]==y[sa[i]+k] ? p-1:p++;        if(p>=n)    break;        m=p;    }}int Rank[maxn],height[maxn];void getHeight(int s[],int n){    int k=0;    for(int i=0;i<=n;i++)   Rank[sa[i]]=i;    for(int i=0;i<n;i++){        if(k)   k--;        int j=sa[Rank[i]-1];        while(s[i+k]==s[j+k])   k++;        height[Rank[i]]=k;    }}int r[maxn];char str[maxn];long long  Count_pre[maxn],Count_suf[maxn];long long dp_pre[maxn],dp_suf[maxn];int main(){    int k;    while(scanf("%d",&k)!=EOF){        if(k==0)            break;        scanf("%s",str);        int len=strlen(str);        memset(Count_pre,0,sizeof(Count_pre));        memset(Count_suf,0,sizeof(Count_suf));        memset(dp_pre,0,sizeof(dp_pre));        memset(dp_suf,0,sizeof(dp_suf));        str[len]='$';        scanf("%s",str+len+1);        int n=strlen(str);        for(int i=0;i<=n;i++)            s[i]=str[i];        build_sa(s,n+1,150);        getHeight(s,n);        r[n]=n; //找到第一个比它小的        for(int i=n-1;i>=0;i--){            int tmp=i;            while(tmp!=n&&height[i]<=height[tmp+1])                tmp=r[tmp+1];            r[i]=tmp;        }//        for(int i=0;i<=n;i++)//            printf("height[%d] %d sa[%d] %d r[%d] %d\n",i,height[i],i,sa[i],i,r[i]);        long long ans=0;        for(int i=n;i>=1;i--){            if(sa[i]>len)                Count_suf[i]=Count_suf[i+1]+1,dp_suf[i]=dp_suf[r[i]+1]+1LL*(height[i]-k+1)*(Count_suf[i]-Count_suf[r[i]+1]);            else if(sa[i]<len){                Count_suf[i]=Count_suf[i+1];                ans+=dp_suf[i+1];                if(height[i]>=k)                    dp_suf[i]=dp_suf[r[i]+1]+1LL*(height[i]-k+1)*(Count_suf[i]-Count_suf[r[i]+1]);            }            if(height[i]<k)                dp_suf[i]=0,Count_suf[i]=0;        }        //printf("%lld\n",ans);        for(int i=n;i>=1;i--){            if(sa[i]<len)                Count_pre[i]=Count_pre[i+1]+1,dp_pre[i]=dp_pre[r[i]+1]+1LL*(height[i]-k+1)*(Count_pre[i]-Count_pre[r[i]+1]);            else if(sa[i]>len){                Count_pre[i]=Count_pre[i+1];                ans+=dp_pre[i+1];                if(height[i]>=k)                    dp_pre[i]=dp_pre[r[i]+1]+1LL*(height[i]-k+1)*(Count_pre[i]-Count_pre[r[i]+1]);            }            if(height[i]<k)                dp_pre[i]=0,Count_pre[i]=0;        }        printf("%I64d\n",ans);    }    return 0;}

多个字符串的问题

  • poj 3294 出现在不小于k个字符串中的最长子串
    传送门:poj 3294 Life Forms

    思路:先将这些字符串用未出现的字符相连,然后利用二分答案。

  • spoj 220 给定 n 个字符串,求在每个字符串中至少出现两次且不重叠的最长子串。

    传送门:spoj 220 Relevant Phrases of Annihilation

    思路:先将 n 个字符串连起来,中间用不相同的且没有
    出现在字符串中的字符隔开,求后缀数组。然后二分答案,再将后缀分组。判断的时候,要看是否有一组后缀在每个原来的字符串中至少出现两次,并且在每个原来的字符串中,后缀的起始位置的最大值与最小值之差是否不小于当前答案(判断能否做到不重叠,如果题目中没有不重叠的要求,那么不用做此判断) 。

  • poj 1226 给定 n 个字符串,求出现或反转后出现在每个字符串中的最长子串。
    传送门:poj 1226 Substrings

    思路:只需要先将每个字符串都反过来写一遍,中间用一个互不相同的
    且没有出现在字符串中的字符隔开,再将 n 个字符串全部连起来,中间也是用一个互不相同的且没有出现在字符串中的字符隔开,求后缀数组。然后二分答案,再将后缀分组。判断的时候,要看是否有一组后缀在每个原来的字符串或反转后的字符串中出现。这个做法的时间复杂度为 O(nlogn)。

1 0
原创粉丝点击