后缀数组模板解析

来源:互联网 发布:6080软件下载 编辑:程序博客网 时间:2024/03/28 23:55
int sa[MAXN] , wa[MAXN] ,wb[MAXN] , wv[MAXN] , wss[MAXN];int cmp ( int *r , int a , int b , int len ){    return r[a] == r[b]&&r[a+len]==r[b+len];}void da ( int *r , int *sa , int n , int m ){    int i,j,p , *x = wa , *y = wb , *t ;    //首先利用计数排序对长度为1的字符串进行排序,利用字符密集且非负而且真值较小的性质,可以    //使统计排序有很高的效率    //x数组相当于保存的是当前长度子串的rank值,因为在后面的计算中并没用利用它的值,只是利    //他们的大小关系进行比较    for( i = 0 ; i < m ; i++ ) wss[i] = 0;    for( i = 0 ; i < n ; i++ ) wss[x[i] = r[i]]++;    for( i = 0 ; i < m ; i++ ) wss[i] += wss[i-1];    for( i = n-1; i >= 0 ; i-- ) sa[--wss[x[i]]] = i;    //因为要每一次排序当前长度的字符串,都要借助上一次长度的结果,将两个子串的rank分别作为 //第一关键字和第二关键字排序,而第二关键字的排序可以由上一次推算出的sa值直接算出    //两个关键字分别代表第一个子串在上一次排序后的rank值,要补充在后面的字符串的rank值    for( j = 1,p = 1; p < n; j *=2 , m = p )    {        for( p = 0 , i = n-j; i < n; i++ )        y[p++]= i;        //因为剩余长度不够,无法构成给定长度的字符串        for( i = 0 ; i < n ; i++ )        if( sa[i] >= j ) y[p++] = sa[i]-j;        //数组y保存的是第二关键字的排序结果,因为sa和rank是互逆运算,所以,sa存的内容就        //是rank的下标,同样y的值就是rank的下标,所以直接利用sa值就可以得到rank的排序结果,记录拼接后的字符串的首位置        for( i = 0 ; i < n ; i++ ) wv[i] = x[y[i]];        //已经根据第二关键字排序,所以再排序,第一关键字相等的,第二关键字小的自然在前面,        //能够保证计数排序时的正确性        for( i = 0 ; i < m ; i++ ) wss[i] = 0;        for( i = 0 ; i < n ; i++ ) wss[wv[i]]++;        for( i = 1 ; i < m ; i++ ) wss[i] += wss[i-1];        for( i = n-1 ; i >= 0 ; i-- ) sa[--wss[wv[i]]] = y[i];        for( t = x , x = y , y = t , p = 1 , x[sa[0]] = 0, i = 1; i <n ;i++ )        x[sa[i]]= cmp ( y , sa[i-1] , sa[i], j ) ? p-1 : p++;    }    return;}


后缀数组常用的还有一个height数组,定义height数组存的是排名在i位和第i-1位的后缀的最长公共前缀的长度。

那么我们如何才能快速求取这个数组呢?

取任意ij,不妨设rank[j]<rank[k],那么以j开头的后缀和以k开头的后缀的最长公共前缀就是Height[rank[j]+1]height[rank[k]]的最小值,height[i]表示相邻排名的最长公共子串,每次比较相邻公共子串后取最小便能得到所求。

Height数组告诉求取:定义h[i]=height[rank[i]]

那么,h[i]>= h[i-1] -1

证明:设suffix(k)是排在suffix(i-1)的前一名的后缀,那么他们的最长公共前缀为h[i-1].那么以k+1为首位置的后缀前面并且该后缀和以i为首位置的后缀的最长公共前缀是h[i-1]-1,所以原结论得证。


代码的实现:

int rank[MAXN],height[MAXN];void calheight ( int *r , int *sa , int n ){    int i,j,k = 0;    for( i = 1 ; i <= n ; i++ ) rank[sa[i]] = i;//初始化rank数组    for( i = 0 ; i < n ; height[rank[i++]] = k )    for(k?k--:0 , j = sa[rank[i]-1]; r[i+k] == r[j+k];k++ );    //借用了kmp的思想,每次比较前缀最后一位判断是否相等,因为相邻的前缀只可能公共前缀差1    return;}



0 0
原创粉丝点击