后缀数组 倍增算法 代码详解

来源:互联网 发布:c udp网络编程 编辑:程序博客网 时间:2024/05/01 06:53
sa[i],表示按后缀树那种排列方式,排在第i位的后缀是哪个后缀
for循环里,y[i]表示对于现在的sa数组(排序处理到当前状况时),第二关键字第i大的第一关键字的位置
x[i] 表示上图中每次要排序的序列,首字母在i的后缀的排位,是rank数组

基数排序:每个元素的值对应一个槽radix,统计各个槽的累积个数,就能得到那个元素的排位
char s[maxn];
int sa[maxn],t[maxn],t2[maxn],c[maxn],n;

// 倍增算法,每次都对二元组排序,先排第一关键字,再排第二关键字
// 对于长度为2^(k+1)的时候,先比较前2^k的排位,再比较后2^k的排位,每一次可以利用前一次的结果推出来
void build_sa(int m)
{
    int *x=t,*y=t2;
// 第一次排序
    for(int i=0;i<m;++i) c[i]=0;
    for(int i=0;i<n;++i) c[x[i]=s[i]]++;
    for(int i=1;i<m;++i) c[i]+=c[i-1];
    for(int i=n-1;i>=0;--i) sa[--c[x[i]]]=i;
    
    for(int k=1;k<=n;k<<=1)
    {
        int p=0;
// 对第二关键字排序,[n-k,n]部分的第二关键字均为0,所以是第二关键字最小的
// y[i]记录的是,第二关键字第i大的对应的那个第一关键字后缀的首字母,是第一关键字的东西,不是第二关键字的,所以要sa[i]-k
        for(int i=n-k;i<n;++i) y[p++]=i;
        for(int i=0;i<n;++i) if(sa[i]>=k) y[p++]=sa[i]-k;
// p=n,y[i]是0~n-1之间互不相同的数,因为sa[i]是0~n-1之间互不相同的数,表示下标

// 对第一关键字排序,利用与第二关键字相关的那个序列
// x[i]在0~n-1都有值,只不过有些值重叠,当两两不同时break
        for(int i=0;i<m;++i) c[i]=0;
        for(int i=0;i<n;++i) c[x[y[i]]]++;
        for(int i=1;i<m;++i) c[i]+=c[i-1];
        for(int i=0;i<n;++i) sa[--c[x[y[i]]]]=y[i]; // 因为y[i]记录的是对应的第一关键字的位置
        
// 根据已经要求排序好的sa,放在x数组中
        swap(x,y);
        x[sa[0]]=0; p=1;
        for(int i=1;i<n;++i)
            x[sa[i]]= (y[sa[i]]==y[sa[i-1]] && y[sa[i]+k]==y[sa[i-1]+k]) ? p-1:p++;
        if(p>=n) break;
        m=p;
    }
}





原创粉丝点击