hdu5008 Boring String Problem 后缀数组+二分

来源:互联网 发布:编程入门教学 编辑:程序博客网 时间:2024/04/19 17:37

题意:给定一个字符串求第k小子串。

思路:首先我们知道任何一个字符串的子串一定是其某个后缀的前缀,那么利用后缀数组可先求得sa值。设字符串长度为len,对于

sa[i]为首的后缀,那么会产生len - sa[ i ] - height[ i ]个新的子串。而且会发现以sa[ i - 1 ]为首的后缀所形成新的子字符串一定比sa[ i ]

为首的后缀所形成的新的子字符串字典序小。求完sa值后,我们用sum[ i ]数组记录sa[1]到sa[ i ]总共形成的不同子串。然后我们在

sum数组中二分找到第k小子串是以哪个sa[ j ]为首的后缀形成的,找到相应的位置。下面的问题是如何保证找到的相应位置是最小

的。首先我们已经知道了第k小的字符串是啥,并且知道了长度,不妨设为len1。那么假设知道是以sa[ i ]为首的后缀形成的,那么接

下来我们看i之后的j,如果lcp(i,j)>=len1那么说明 以sa[ j ]为首的后缀也能形成所要找的子串,最终取所有满足的j的sa [ j ]中的最小值

和sa[ i ]再取一个最小值就是所要找的最小位置。那么我们可以用RMQ维护一个区间里sa值的最小值即可。详见代码:

(不得不吐嘈一下:暴力找最小位置比RMQ还快。。。)

RMQ版:800+ms

// file name: hdu5008.cpp //// author: kereo //// create time:  2014年09月16日 星期二 08时25分29秒 ////***********************************//#include<iostream>#include<cstdio>#include<cstring>#include<queue>#include<set>#include<map>#include<vector>#include<stack>#include<cmath>#include<string>#include<algorithm>using namespace std;typedef long long ll;const int MAXN=100000+100;const int inf=0x3fffffff;const int mod=1000000000+7;#define L(x) (x<<1)#define R(x) (x<<1|1)int n,Q;char str[MAXN];ll sum[MAXN];int sa[MAXN],height[MAXN],rank[MAXN],c[MAXN],t1[MAXN],t2[MAXN];int dp[MAXN][20],h[MAXN][20];int cmp(int *r,int a,int b,int l){return r[a] == r[b] && r[a+l] == r[b+l];}void build_sa(int m){int i,k,p=0;int *x=t1,*y=t2;for(i=0;i<m;i++) c[i]=0;for(i=0;i<n;i++) c[x[i]=str[i]]++;for(i=1;i<m;i++) c[i]+=c[i-1];for(i=n-1;i>=0;i--) sa[--c[x[i]]]=i;for(k=1;p<n;k<<=1,m=p){for(p=0,i=n-k;i<n;i++) y[p++]=i;for(i=0;i<n;i++) if(sa[i]>=k) y[p++]=sa[i]-k;for(i=0;i<m;i++) c[i]=0;for(i=0;i<n;i++) c[x[y[i]]]++;for(i=1;i<m;i++) c[i]+=c[i-1];for(i=n-1;i>=0;i--) sa[--c[x[y[i]]]]=y[i];swap(x,y);for(p=1,x[sa[0]]=0,i=1;i<n;i++)x[sa[i]]=cmp(y,sa[i-1],sa[i],k) ? p-1 : p++;}}void calheight(int n){int k=0;for(int i=0;i<=n;i++) rank[sa[i]]=i;for(int i=0;i<n;i++){if(k) k--;int j=sa[rank[i]-1];while(str[i+k] == str[j+k]) k++;height[rank[i]]=k;}}void RMQ_init(int n){for(int i=1;i<=n;i++) dp[i][0]=sa[i];for(int j=1;(1<<j)<=n;j++)for(int i=1;i+(1<<j)-1<=n;i++)dp[i][j]=min(dp[i][j-1],dp[i+(1<<(j-1))][j-1]);for(int i=1;i<=n;i++) h[i][0]=height[i];for(int j=1;(1<<j)<=n;j++)for(int i=1;i+(1<<j)-1<=n;i++)h[i][j]=min(h[i][j-1],h[i+(1<<(j-1))][j-1]);}int lcp(int l,int r){int k=0;if(l == r) return n-sa[l];l++;while((1<<(k+1))<=r-l+1) k++;return min(h[l][k],h[r-(1<<k)+1][k]);}int query(int l,int r){int k=0;while((1<<(k+1))<=r-l+1) k++;return min(dp[l][k],dp[r-(1<<k)+1][k]);}int main(){while(~scanf("%s",str)){int len=strlen(str);   n=len;str[n++]=0;scanf("%d",&Q);build_sa(150); calheight(n-1); RMQ_init(n-1);sum[0]=0;for(int i=1;i<n;i++)sum[i]=sum[i-1]+len-sa[i]-height[i];ll max_size=sum[n-1];ll L=0,R=0;while(Q--){ll x;scanf("%I64d",&x);ll k=(L^R^x)+1;if(k>max_size){L=R=0;printf("0 0\n");continue;}int pos=lower_bound(sum+1,sum+n,k)-sum; //找第一个大于等于k的区间k-=sum[pos-1];int len=height[pos]+k;int l=pos,r=n-1,ans=pos;while(l<=r){int mid=(l+r)>>1;if(lcp(pos,mid)>=len){ans=mid; l=mid+1;}else r=mid-1;}L=query(pos,ans)+1; R=L+len-1;printf("%I64d %I64d\n",L,R);}}return 0;}

暴力版:300+ms(真是印证了简单粗暴。。。)

// file name: hdu5008.cpp //// author: kereo //// create time:  2014年09月16日 星期二 08时25分29秒 ////***********************************//#include<iostream>#include<cstdio>#include<cstring>#include<queue>#include<set>#include<map>#include<vector>#include<stack>#include<cmath>#include<string>#include<algorithm>using namespace std;typedef long long ll;const int MAXN=100000+100;const int inf=0x3fffffff;const int mod=1000000000+7;#define L(x) (x<<1)#define R(x) (x<<1|1)int n,Q;char str[MAXN];ll sum[MAXN];int sa[MAXN],height[MAXN],rank[MAXN],c[MAXN],t1[MAXN],t2[MAXN];int cmp(int *r,int a,int b,int l){return r[a] == r[b] && r[a+l] == r[b+l];}void build_sa(int m){int i,k,p=0;int *x=t1,*y=t2;for(i=0;i<m;i++) c[i]=0;for(i=0;i<n;i++) c[x[i]=str[i]]++;for(i=1;i<m;i++) c[i]+=c[i-1];for(i=n-1;i>=0;i--) sa[--c[x[i]]]=i;for(k=1;p<n;k<<=1,m=p){for(p=0,i=n-k;i<n;i++) y[p++]=i;for(i=0;i<n;i++) if(sa[i]>=k) y[p++]=sa[i]-k;for(i=0;i<m;i++) c[i]=0;for(i=0;i<n;i++) c[x[y[i]]]++;for(i=1;i<m;i++) c[i]+=c[i-1];for(i=n-1;i>=0;i--) sa[--c[x[y[i]]]]=y[i];swap(x,y);for(p=1,x[sa[0]]=0,i=1;i<n;i++)x[sa[i]]=cmp(y,sa[i-1],sa[i],k) ? p-1 : p++;}}void calheight(int n){int k=0;for(int i=0;i<=n;i++) rank[sa[i]]=i;for(int i=0;i<n;i++){if(k) k--;int j=sa[rank[i]-1];while(str[i+k] == str[j+k]) k++;height[rank[i]]=k;}}int main(){while(~scanf("%s",str)){int len=strlen(str);   n=len;str[n++]=0;scanf("%d",&Q);build_sa(150); calheight(n-1); //<F8>RMQ_init(n-1);sum[0]=0;for(int i=1;i<n;i++)sum[i]=sum[i-1]+len-sa[i]-height[i];ll max_size=sum[n-1];ll L=0,R=0;while(Q--){ll x;scanf("%I64d",&x);ll k=(L^R^x)+1;if(k>max_size){L=R=0;printf("0 0\n");continue;}int pos=lower_bound(sum+1,sum+n,k)-sum; //找第一个大于等于k的区间L=sa[pos],R=n-1-(sum[pos]-k+1);int Len=R-L+1;while(pos+1<n && height[pos+1]>=Len){pos++;ll LL=sa[pos],RR=sa[pos]+Len-1;L=min(L,LL);R=min(R,RR);}L++,R++;printf("%I64d %I64d\n",L,R);}}return 0;}


0 0