【总结】 后缀数组

来源:互联网 发布:java编码转换类 编辑:程序博客网 时间:2024/06/05 12:46

1.基本定义

子串:串中的某一段就是r[i......j].

后缀:从串中某个位置i开始一直到结尾的子串,纪委suffix(i)。

后缀数组中是按字典序排序。

sa数组:记录的是字典序排名第i的后缀的位置(排名第几的是谁)。

rank数组:记录的是每个位置对应的排名(你排名第几),比如aa,rank[1]=2,rank[2]=1(位置从1开始).sa[1]=2,sa[2]=1.所以很容易看到如果rank[i]=j,那么sa[j]=i。

2.倍增算法

学后缀数组应该都会看那篇神论文,倍增算法时间复杂度O(nlogn),直接上模板。。模板详细解释http://www.cnblogs.com/staginner/archive/2012/02/02/2335600.html

int r[MAXN],sa[MAXN],wa[MAXN],wb[MAXN],ws[MAXN],wv[MAXN];int cmp(int *r,int a,int b,int l){    return r[a]==r[b]&&r[a+l]==r[b+l];}void da(int *r,int *sa,int n,int m){    int i,j,p,*x=wa,*y=wb,*t;    for(i=0;i<m;i++)        ws[i]=0;    for(i=0;i<n;i++)        ws[x[i]=r[i]]++;    for(i=1;i<m;i++)        ws[i]+=ws[i-1];    for(i=n-1;i>=0;i--)        sa[--ws[x[i]]]=i;    for(j=p=1;p<n;m=p,j*=2)    {        for(p=0,i=n-j;i<n;i++)            y[p++]=i;        for(i=0;i<n;i++)            if(sa[i]>=j)            y[p++]=sa[i]-j;        for(i=0;i<n;i++)            wv[i]=x[y[i]];        for(i=0;i<m;i++)            ws[i]=0;        for(i=0;i<n;i++)            ws[wv[i]]++;        for(i=1;i<m;i++)            ws[i]+=ws[i-1];        for(i=n-1;i>=0;i--)            sa[--ws[wv[i]]]=y[i];        for(t=x,x=y,y=t,i=p=1,x[sa[0]]=0;i<n;i++)            x[sa[i]]=cmp(y,sa[i-1],sa[i],j)?p-1:p++;    }    return;}

3.应用

height数组:height数组是记录后缀sa[i-1]和后缀sa[i]的最长公共前缀(也就是排名第i-1的后缀和排名第i的后缀的最长公共前缀)

计算h数组要用到一个性质,证明什么的论文里有。上模板

int rank[MAXN],height[MAXN];void calheight(int *r,int *sa,int n){    int i,j,k=0;    for(i=1;i<=n;i++)        rank[sa[i]]=i;    for(i=0;i<n;height[rank[i++]]=k)        for(k?k--:0,j=sa[rank[i]-1];r[i+k]==r[j+k];k++);    return;}

最后附些题目。

求最长公共子串:HDU1403

求最少出现2次以上的子串的个数(不可重叠):HDU3518

枚举长度。

#include<cstdio>#include<cstring>#include<algorithm>using namespace std;const int MAXN=1010;int r[MAXN],ws[MAXN],wv[MAXN],wb[MAXN],wa[MAXN];int sa[MAXN];int cmp(int *r,int a,int b,int l){    return r[a]==r[b]&&r[a+l]==r[b+l];}void da(int *r,int *sa,int n,int m){    int i,j,p,*x=wa,*y=wb,*t;    for(i=0;i<m;i++)        ws[i]=0;    for(i=0;i<n;i++)        ws[x[i]=r[i]]++;    for(i=1;i<m;i++)        ws[i]+=ws[i-1];    for(i=n-1;i>=0;i--)        sa[--ws[x[i]]]=i;    for(j=1,p=1;p<n;j*=2,m=p)    {        for(p=0,i=n-j;i<n;i++)            y[p++]=i;        for(i=0;i<n;i++)            if(sa[i]>=j)            y[p++]=sa[i]-j;        for(i=0;i<n;i++)            wv[i]=x[y[i]];        for(i=0;i<m;i++)            ws[i]=0;        for(i=0;i<n;i++)            ws[wv[i]]++;        for(i=1;i<m;i++)            ws[i]+=ws[i-1];        for(i=n-1;i>=0;i--)            sa[--ws[wv[i]]]=y[i];        for(t=x,x=y,y=t,p=1,i=1,x[sa[0]]=0;i<n;i++)            x[sa[i]]=cmp(y,sa[i-1],sa[i],j)?p-1:p++;    }    return;}int rank[MAXN],height[MAXN];void callheight(int *r,int *sa,int n){    int i,j,k=0;    for(i=1;i<=n;i++)        rank[sa[i]]=i;    for(i=0;i<n;height[rank[i++]]=k)        for(k?k--:0,j=sa[rank[i]-1];r[j+k]==r[i+k];k++);    return;}char s[MAXN];int main(){    int i,j;    while(scanf("%s",s)!=EOF)    {        if(s[0]=='#')            break;        int len=strlen(s);        for(i=0;i<len;i++)            r[i]=s[i];        r[len]=0;        da(r,sa,len+1,128);        callheight(r,sa,len);        __int64 ans=0;        for(i=1;i<=(len+1)/2;i++)        {            int maxt=-1;            int mint=1001;            for(j=1;j<=len;j++)            {                if(height[j]>=i)                {                    int tmp=min(sa[j],sa[j-1]);                    mint=min(mint,tmp);                    tmp=max(sa[j],sa[j-1]);                    maxt=max(maxt,tmp);                }                else                {                    if(mint+i<=maxt)                        ans++;                    mint=1001;                    maxt=-1;                }            }            if(mint+i<=maxt)                ans++;        }        printf("%I64d\n",ans);    }    return 0;}

最长不重复子串:POJ1743

最少重复出现k次的子串的最长长度:POJ3261

求所给出串里的最长公共部分:POJ3450

0 0
原创粉丝点击