后缀数组总结
来源:互联网 发布:詹姆斯选秀体测数据 编辑:程序博客网 时间:2024/06/14 07:29
第二遍刷后缀数组的论文题了,记录一下思路
先贴一下几种求sa的模板
n*logn*logn 的快速排序
/*时间复杂度n*logn*logn模板的调用build_sa(s,n) //n为原来字符串的长度N=n;*/int Rank[MAXN+1],tmp[MAXN+1],sa[MAXN+1],l,s[MAXN+1],N;bool compare_sa(int i,int j){ if(Rank[i]!=Rank[j]) return Rank[i]<Rank[j]; else{ int ri=i+l<=N? Rank[i+l]:-1; int rj=j+l<=N? Rank[j+l]:-1; return ri<rj; }}//计算字符串s的后缀数组void build_sa(int s[],int n){ for(int i=0;i<=n;i++){ sa[i]=i; Rank[i]=i<n ? s[i]:-1; } //利用对长度为k的排序结果对长度为2k的排序 for(l=1;l<=n;l*=2){ sort(sa,sa+n+1,compare_sa); tmp[sa[0]]=0; //先在tmp中临时存储新计算的Rank,再转存回Rank中 for(int i=1;i<=n;i++) tmp[sa[i]]=tmp[sa[i-1]]+(compare_sa(sa[i-1],sa[i])?1:0); for(int i=0;i<=n;i++) Rank[i]=tmp[i]; }}
n*logn的基数排序
/**倍增算法nlogn*将待排序数组放在0~n-1中,在最后补一个0*build(,n+1,);//注意是n+1*getHeight(,n);*例如:*n = 8;*num[] = { 1, 1, 2, 1, 1, 1, 1, 2, $ };注意num最后一位为0,其他大于0*Rank[] = { 4, 6, 8, 1, 2, 3, 5, 7, 0 };Rank[0~n-1]为有效值,Rank[n]必定为0无效值*sa[] = { 8, 3, 4, 5, 0, 6, 1, 7, 2 };sa[1~n]为有效值,sa[0]必定为n是无效值*height[]= { 0, 0, 3, 2, 3, 1, 2, 0, 1 };height[2~n]为有效值*/int s[maxn];int sa[maxn],t1[maxn],t2[maxn],c[maxn];//构造字符串S的后缀数组,每个字符值必须为0~m-1void build_sa(int s[],int n,int m){ int *x=t1,*y=t2; for(int i=0;i<m;i++) c[i]=0; for(int i=0;i<n;i++) c[x[i]=s[i]]++; for(int i=1;i<m;i++) c[i]+=c[i-1]; for(int i=n-1;i>=0;i--) sa[--c[x[i]]]=i; for(int k=1;k<=n;k<<=1){ int p=0; for(int i=n-k;i<n;i++) y[p++]=i; for(int i=0;i<n;i++) if(sa[i]>=k) y[p++]=sa[i]-k; for(int i=0;i<m;i++) c[i]=0; for(int i=0;i<n;i++) c[x[y[i]]]++; for(int i=0;i<m;i++) c[i]+=c[i-1]; for(int i=n-1;i>=0;i--) sa[--c[x[y[i]]]]=y[i]; swap(x,y); p=1;x[sa[0]]=0; for(int i=1;i<n;i++) x[sa[i]]=y[sa[i-1]]==y[sa[i]]&&y[sa[i-1]+k]==y[sa[i]+k] ? p-1:p++; if(p>=n) break; m=p; }}
O(n)的DC3
/*dc3(s,sa,n+1,123)的调用sa数组和s数组应该扩大3倍*/int ws[maxn],wa[maxn],wb[maxn],wv[maxn],sa[maxn],f[maxn];char str[maxn];int s[maxn];//dc3#define F(x) ((x)/3+((x)%3==1?0:tb))#define G(x) ((x)<tb?(x)*3+1:((x)-tb)*3+2)int c0(int *r,int a,int b){ return r[a]==r[b]&&r[a+1]==r[b+1]&&r[a+2]==r[b+2];}int c12(int k,int *r,int a,int b){ if(k==2) return r[a]<r[b]||r[a]==r[b]&&c12(1,r,a+1,b+1); else return r[a]<r[b]||r[a]==r[b]&&wv[a+1]<wv[b+1];}void sort(int *r,int *a,int *b,int n,int m){ int i; for(i=0; i<n; i++) wv[i]=r[a[i]]; for(i=0; i<m; i++) ws[i]=0; for(i=0; i<n; i++) ws[wv[i]]++; for(i=1; i<m; i++) ws[i]+=ws[i-1]; for(i=n-1; i>=0; i--) b[--ws[wv[i]]]=a[i]; return;}void dc3(int *r,int *sa,int n,int m){ int i,j,*rn=r+n,*san=sa+n,ta=0,tb=(n+1)/3,tbc=0,p; r[n]=r[n+1]=0; for(i=0; i<n; i++) if(i%3!=0) wa[tbc++]=i; sort(r+2,wa,wb,tbc,m); sort(r+1,wb,wa,tbc,m); sort(r,wa,wb,tbc,m); for(p=1,rn[F(wb[0])]=0,i=1; i<tbc; i++) rn[F(wb[i])]=c0(r,wb[i-1],wb[i])?p-1:p++; if(p<tbc) dc3(rn,san,tbc,p); else for(i=0; i<tbc; i++) san[rn[i]]=i; for(i=0; i<tbc; i++) if(san[i]<tb) wb[ta++]=san[i]*3; if(n%3==1) wb[ta++]=n-1; sort(r,wb,wa,ta,m); for(i=0; i<tbc; i++) wv[wb[i]=G(san[i])]=i; for(i=0,j=0,p=0; i<ta && j<tbc; p++) sa[p]=c12(wb[j]%3,r,wa[i],wb[j])?wa[i++]:wb[j++]; for(; i<ta; p++) sa[p]=wa[i++]; for(; j<tbc; p++) sa[p]=wb[j++]; return;}
height数组的求解和RMQ的使用
int Rank[maxn],height[maxn];//getHeight(,n);void getHeight(int s[],int n){ int k=0; for(int i=0;i<=n;i++) Rank[sa[i]]=i; for(int i=0;i<n;i++){ if(k) k--; int j=sa[Rank[i]-1]; while(s[i+k]==s[j+k]) k++; height[Rank[i]]=k; }}int dp[maxn][20];void RMQ_init(int n){ for(int i=1;i<=n;i++) dp[i][0]=height[i]; for(int j=1;(1<<j)<=n;j++) for(int i=1;i+(1<<j)-1<=n;i++) dp[i][j]=min(dp[i][j-1],dp[i+(1<<(j-1))][j-1]);}//L和R表示在字符串中的位置,rmq表示查询[L,R]之间的最长公共后缀int rmq(int L,int R){ if(L==R) return N-R+1;//N定义为strlen(n) L=Rank[L],R=Rank[R]; if(L>R) swap(L,R); L++; int k=(int)log2(R-L+1); return min(dp[L][k],dp[R-(1<<k)+1][k]);}
接下来是对应论文中的一些题目。
重复子串
poj 1743 给定一个字符串,求最长重复子串,这两个子串不能重叠。
传送门:poj 1743 Musical Theme思路:先求出sa和height,然后二分答案,假设答案为k,把连续height大于等于k的放在一组,对于每一组中的判断,只要判断这一组中sa的最小值和最大值之差是否大于等于k(只要有一组成立这个答案便是合法的)
#include<algorithm>#include<cstdio>#include<cmath>using namespace std;const int maxn=20100;/**倍增算法nlogn*将待排序数组放在0~n-1中,在最后补一个0*build(,n+1,);//注意是n+1*getHeight(,n);*例如:*n = 8;*num[] = { 1, 1, 2, 1, 1, 1, 1, 2, $ };注意num最后一位为0,其他大于0*Rank[] = { 4, 6, 8, 1, 2, 3, 5, 7, 0 };Rank[0~n-1]为有效值,Rank[n]必定为0无效值*sa[] = { 8, 3, 4, 5, 0, 6, 1, 7, 2 };sa[1~n]为有效值,sa[0]必定为n是无效值*height[]= { 0, 0, 3, 2, 3, 1, 2, 0, 1 };height[2~n]为有效值*/int s[maxn];int sa[maxn],t1[maxn],t2[maxn],c[maxn];//构造字符串S的后缀数组,每个字符值必须为0~m-1void build_sa(int s[],int n,int m){ int *x=t1,*y=t2; for(int i=0;i<m;i++) c[i]=0; for(int i=0;i<n;i++) c[x[i]=s[i]]++; for(int i=1;i<m;i++) c[i]+=c[i-1]; for(int i=n-1;i>=0;i--) sa[--c[x[i]]]=i; for(int k=1;k<=n;k<<=1){ int p=0; for(int i=n-k;i<n;i++) y[p++]=i; for(int i=0;i<n;i++) if(sa[i]>=k) y[p++]=sa[i]-k; for(int i=0;i<m;i++) c[i]=0; for(int i=0;i<n;i++) c[x[y[i]]]++; for(int i=0;i<m;i++) c[i]+=c[i-1]; for(int i=n-1;i>=0;i--) sa[--c[x[y[i]]]]=y[i]; swap(x,y); p=1;x[sa[0]]=0; for(int i=1;i<n;i++) x[sa[i]]=y[sa[i-1]]==y[sa[i]]&&y[sa[i-1]+k]==y[sa[i]+k] ? p-1:p++; if(p>=n) break; m=p; }}int Rank[maxn],height[maxn];void getHeight(int s[],int n){ int k=0; for(int i=0;i<=n;i++) Rank[sa[i]]=i; for(int i=0;i<n;i++){ if(k) k--; int j=sa[Rank[i]-1]; while(s[i+k]==s[j+k]) k++; height[Rank[i]]=k; }}const int INF=0x3f3f3f3f;bool check(int num,int n){ int minv=INF,maxv=0; for(int i=2;i<=n;i++){ if(height[i]>=num){ minv=min(minv,min(sa[i],sa[i-1])); maxv=max(maxv,max(sa[i],sa[i-1])); if(maxv-minv>=num) return true; } else minv=INF,maxv=0; } return false;}int a[maxn];int main(){ int n; while(scanf("%d",&n)!=EOF){ if(n==0) break; for(int i=0;i<n;i++) scanf("%d",&a[i]); for(int i=0;i<n-1;i++) s[i]=a[i+1]-a[i]+100; n--,s[n]=0; build_sa(s,n+1,189); getHeight(s,n); int low=0,high=n,ans=0; while(high-low>=0){ int mid=(high+low)>>1; if(check(mid,n)) low=mid+1,ans=mid+1; else high=mid-1; } printf("%d\n",ans<5 ? 0 :ans); } return 0;}
- poj 3261 给定一个字符串,求至少出现k次的最长重复子串,这k个子串可以重叠。
传送门:poj 3261 Milk Patterns
思路:二分答案x,然后对height进行分组,判断有没有一组它的合法的height数目>=k-1
#include<algorithm>#include<cstring>#include<cmath>#include<cstdio>using namespace std;const int MAXN=41000;/*时间复杂度n*logn*logn模板的调用build_sa(s,n) //n为原来字符串的长度N=n;*/int Rank[MAXN+1],tmp[MAXN+1],sa[MAXN+1],l,s[MAXN+1],N;bool compare_sa(int i,int j){ if(Rank[i]!=Rank[j]) return Rank[i]<Rank[j]; else{ int ri=i+l<=N? Rank[i+l]:-1; int rj=j+l<=N? Rank[j+l]:-1; return ri<rj; }}//计算字符串s的后缀数组void build_sa(int s[],int n){ for(int i=0;i<=n;i++){ sa[i]=i; Rank[i]=i<n ? s[i]:-1; } //利用对长度为k的排序结果对长度为2k的排序 for(l=1;l<=n;l*=2){ sort(sa,sa+n+1,compare_sa); tmp[sa[0]]=0; //先在tmp中临时存储新计算的Rank,再转存回Rank中 for(int i=1;i<=n;i++) tmp[sa[i]]=tmp[sa[i-1]]+(compare_sa(sa[i-1],sa[i])?1:0); for(int i=0;i<=n;i++) Rank[i]=tmp[i]; }}int height[MAXN+1];void getHeight(int s[],int n){ int k=0; for(int i=0;i<=n;i++) Rank[sa[i]]=i; for(int i=0;i<n;i++){ if(k) k--; int j=sa[Rank[i]-1]; while(s[i+k]==s[j+k]) k++; height[Rank[i]]=k; }}bool check(int num,int k,int n){ int cnt=0; for(int i=2;i<=n;i++){ if(height[i]>=num){ cnt++; if(cnt>=k-1) return true; } else cnt=0; } return false;}int main(){ int n,time; while(scanf("%d%d",&n,&time)!=EOF){ for(int i=0;i<n;i++) scanf("%d",&s[i]),s[i]++; s[n]=0,N=n; build_sa(s,n); getHeight(s,n); int low=0,high=n,ans=0; while(high-low>=0){ int mid=low+high>>1; if(check(mid,time,n)) low=mid+1,ans=mid; else high=mid-1; } printf("%d\n",ans); } return 0;}
发散思维:给定一个字符串,求至少出现k次的最长重复子串,这k个子串不可重叠。
思路一:二分答案x,然后对于height分组,对于每一组中所有的开头,我们将其排序,贪心取第一个之后,判断是否有一组他能选取的总数大于等于k。
时间复杂度n*logn*logn
思路二:二分答案x,然后处理出每个点之后距离这个点长度为x-1的Hash值,建立一个next表,判断有没有一个next表的长度大于等于k(如果当前点和上一个相同next值之间距离小于x的直接不加人)
时间复杂度:n*logn
子串的个数
spoj 694 给定一个字符串,求不相同的子串的个数。
传送门:spoj 649 Distinct Substrings思路:如果不算重复的,那么总的子串的个数为strlen(s)*(strlen(s)-1)/2,每个子串一定是某个后缀的前缀,那么原问题等价于求所有后缀之间的不相同子串个数。因为每个子串只能被重复计算一次,那么再减掉height[i]的和就是答案
/*spoj694给定一个字符串,求不相同的子串的个数。*/#include<algorithm>#include<cstdio>#include<cmath>#include<cstring>using namespace std;const int maxn=20100;/**倍增算法nlogn*将待排序数组放在0~n-1中,在最后补一个0*build(,n+1,);//注意是n+1*getHeight(,n);*例如:*n = 8;*num[] = { 1, 1, 2, 1, 1, 1, 1, 2, $ };注意num最后一位为0,其他大于0*Rank[] = { 4, 6, 8, 1, 2, 3, 5, 7, 0 };Rank[0~n-1]为有效值,Rank[n]必定为0无效值*sa[] = { 8, 3, 4, 5, 0, 6, 1, 7, 2 };sa[1~n]为有效值,sa[0]必定为n是无效值*height[]= { 0, 0, 3, 2, 3, 1, 2, 0, 1 };height[2~n]为有效值*/int s[maxn];char str[maxn];int sa[maxn],t1[maxn],t2[maxn],c[maxn];//构造字符串S的后缀数组,每个字符值必须为0~m-1void build_sa(int s[],int n,int m){ int *x=t1,*y=t2; for(int i=0;i<m;i++) c[i]=0; for(int i=0;i<n;i++) c[x[i]=s[i]]++; for(int i=1;i<m;i++) c[i]+=c[i-1]; for(int i=n-1;i>=0;i--) sa[--c[x[i]]]=i; for(int k=1;k<=n;k<<=1){ int p=0; for(int i=n-k;i<n;i++) y[p++]=i; for(int i=0;i<n;i++) if(sa[i]>=k) y[p++]=sa[i]-k; for(int i=0;i<m;i++) c[i]=0; for(int i=0;i<n;i++) c[x[y[i]]]++; for(int i=0;i<m;i++) c[i]+=c[i-1]; for(int i=n-1;i>=0;i--) sa[--c[x[y[i]]]]=y[i]; swap(x,y); p=1;x[sa[0]]=0; for(int i=1;i<n;i++) x[sa[i]]=y[sa[i-1]]==y[sa[i]]&&y[sa[i-1]+k]==y[sa[i]+k] ? p-1:p++; if(p>=n) break; m=p; }}int Rank[maxn],height[maxn];void getHeight(int s[],int n){ int k=0; for(int i=0;i<=n;i++) Rank[sa[i]]=i; for(int i=0;i<n;i++){ if(k) k--; int j=sa[Rank[i]-1]; while(s[i+k]==s[j+k]) k++; height[Rank[i]]=k; }}int main(){ int n,k; int _; scanf("%d",&_); while(_--){ scanf("%s",str); int n=strlen(str); int ans=(n+1)*n/2; for(int i=0;i<=n;i++) s[i]=str[i]; build_sa(s,n+1,128); getHeight(s,n); for(int i=2;i<=n;i++) ans-=height[i]; printf("%d\n",ans); } return 0;}
Hdu 5769 Substring
题意:给你一个字符串和一个字符,问有多少个不同的子串包括这个字符。思路:先求出总共有多少个不同的,然后比如相邻两个x的位置分别是x1,x2, 减去所有相邻的之间的方案数,再加上相邻之间重复的。
#include <iostream>#include <string.h>#include <algorithm>#include <stdio.h>using namespace std;const int MAXN=100100;int sa[MAXN];int t1[MAXN],t2[MAXN],c[MAXN];int Rank[MAXN],height[MAXN];void build_sa(int s[],int n,int m){ int i,j,p,*x=t1,*y=t2; for(i=0;i<m;i++)c[i]=0; for(i=0;i<n;i++)c[x[i]=s[i]]++; for(i=1;i<m;i++)c[i]+=c[i-1]; for(i=n-1;i>=0;i--)sa[--c[x[i]]]=i; for(j=1;j<=n;j<<=1) { p=0; for(i=n-j;i<n;i++)y[p++]=i; for(i=0;i<n;i++)if(sa[i]>=j)y[p++]=sa[i]-j; for(i=0;i<m;i++)c[i]=0; for(i=0;i<n;i++)c[x[y[i]]]++; for(i=1;i<m;i++)c[i]+=c[i-1]; for(i=n-1;i>=0;i--)sa[--c[x[y[i]]]]=y[i]; swap(x,y); p=1;x[sa[0]]=0; for(i=1;i<n;i++) x[sa[i]]=y[sa[i-1]]==y[sa[i]] && y[sa[i-1]+j]==y[sa[i]+j]?p-1:p++; if(p>=n)break; m=p; }}void getHeight(int s[],int n){ int i,j,k=0; for(i=0;i<=n;i++)Rank[sa[i]]=i; for(i=0;i<n;i++) { if(k)k--; j=sa[Rank[i]-1]; while(s[i+k]==s[j+k])k++; height[Rank[i]]=k; }}char str[MAXN],s1[2];int s[MAXN],e[MAXN];int main(){ int T; scanf("%d",&T); for(int case1=1;case1<=T;case1++) { scanf("%s",s1); scanf("%s",str); int n=strlen(str); for(int i=0;i<=n;i++)s[i]=str[i]; build_sa(s,n+1,128); getHeight(s,n); long long ans=1LL*n*(n+1)/2; int ed=n;//ed刚开始表示总长度 for(int i=n-1;i>=0;i--){ if(str[i]==s1[0]) //i表示有字母s1[0] ans-=1LL*(ed-i)*(ed-i-1)/2,ed=i; else e[i]=ed; } if(str[0]!=s1[0]) ans-=1LL*ed*(ed+1)/2; for(int i=2;i<=n;i++){ ans-=height[i]; if(str[sa[i]]!=s1[0]) ans+=min(height[i],e[sa[i]]-sa[i]); } printf("Case #%d: %lld\n",case1,ans); } return 0;}
连续重复子串
poj 2406 给定一个字符串L,已知这个字符串是由某个字符串重复R次得到的,求R的最大值
传送门:poj 2406 Power Strings思路:利用height数组预处理出每个开始的位置和0的最长公共子串same, 如果same==n-i&&same%i==0,更新答案
#include<algorithm>#include<cstdio>#include<cmath>#include<cstring>using namespace std;const int maxn=1001000;int ws[maxn],wa[maxn],wb[maxn],wv[maxn],sa[3*maxn],f[maxn];char str[maxn];int s[3*maxn];//dc3#define F(x) ((x)/3+((x)%3==1?0:tb))#define G(x) ((x)<tb?(x)*3+1:((x)-tb)*3+2)int c0(int *r,int a,int b){ return r[a]==r[b]&&r[a+1]==r[b+1]&&r[a+2]==r[b+2];}int c12(int k,int *r,int a,int b){ if(k==2) return r[a]<r[b]||r[a]==r[b]&&c12(1,r,a+1,b+1); else return r[a]<r[b]||r[a]==r[b]&&wv[a+1]<wv[b+1];}void sort(int *r,int *a,int *b,int n,int m){ int i; for(i=0; i<n; i++) wv[i]=r[a[i]]; for(i=0; i<m; i++) ws[i]=0; for(i=0; i<n; i++) ws[wv[i]]++; for(i=1; i<m; i++) ws[i]+=ws[i-1]; for(i=n-1; i>=0; i--) b[--ws[wv[i]]]=a[i]; return;}void dc3(int *r,int *sa,int n,int m){ int i,j,*rn=r+n,*san=sa+n,ta=0,tb=(n+1)/3,tbc=0,p; r[n]=r[n+1]=0; for(i=0; i<n; i++) if(i%3!=0) wa[tbc++]=i; sort(r+2,wa,wb,tbc,m); sort(r+1,wb,wa,tbc,m); sort(r,wa,wb,tbc,m); for(p=1,rn[F(wb[0])]=0,i=1; i<tbc; i++) rn[F(wb[i])]=c0(r,wb[i-1],wb[i])?p-1:p++; if(p<tbc) dc3(rn,san,tbc,p); else for(i=0; i<tbc; i++) san[rn[i]]=i; for(i=0; i<tbc; i++) if(san[i]<tb) wb[ta++]=san[i]*3; if(n%3==1) wb[ta++]=n-1; sort(r,wb,wa,ta,m); for(i=0; i<tbc; i++) wv[wb[i]=G(san[i])]=i; for(i=0,j=0,p=0; i<ta && j<tbc; p++) sa[p]=c12(wb[j]%3,r,wa[i],wb[j])?wa[i++]:wb[j++]; for(; i<ta; p++) sa[p]=wa[i++]; for(; j<tbc; p++) sa[p]=wb[j++]; return;}int Rank[maxn],height[maxn];void getHeight(int s[],int n){ int k=0; for(int i=0;i<=n;i++) Rank[sa[i]]=i; for(int i=0;i<n;i++){ if(k) k--; int j=sa[Rank[i]-1]; while(s[i+k]==s[j+k]) k++; height[Rank[i]]=k; }}int minv[maxn];int main(){ while(scanf("%s",str)!=EOF){ if(str[0]=='.') break; int n=strlen(str); for(int i=0;i<=n;i++) s[i]=str[i]; dc3(s,sa,n+1,128); getHeight(s,n); int now=n;//排在第0位的height for(int i=Rank[0]+1;i<=n;i++){ //Rank比0开始的大的 now=min(now,height[i]); minv[sa[i]]=now; } now=n; for(int i=Rank[0]-1;i>=0;i--){ now=min(now,height[i+1]); minv[sa[i]]=now; } int ans=1; for(int i=1;i<=n;i++){ int same=minv[i]; if(same==n-i&&same%i==0) ans=max(ans,same/i+1); } printf("%d\n",ans); } return 0;}
spoj 687 给定一个字符串,求重复次数最多的连续重复子串。
传送门:spoj 687 Repeats思路:先枚举长度L,下一步是枚举开头,开头只需要枚举L的倍数,为什么呢?
i到i+L-1开头的最长公共前缀要么是小于等于i的前缀,要么是包含了i+L开头的最长公共前缀(这个在接下来会被包含进去)
接下来表示解决上面残留下来的第二个问题
我们不妨先算一下,从s[i*L]开始,除了匹配len/L个循环节之外,还剩余了len%L个,令pre=i-(L-len%L)重新计算一下便可以了。
#include<algorithm>#include<cstdio>#include<cmath>using namespace std;const int maxn=50100;/**倍增算法nlogn*将待排序数组放在0~n-1中,在最后补一个0*build(,n+1,);//注意是n+1*getHeight(,n);*例如:*n = 8;*num[] = { 1, 1, 2, 1, 1, 1, 1, 2, $ };注意num最后一位为0,其他大于0*Rank[] = { 4, 6, 8, 1, 2, 3, 5, 7, 0 };Rank[0~n-1]为有效值,Rank[n]必定为0无效值*sa[] = { 8, 3, 4, 5, 0, 6, 1, 7, 2 };sa[1~n]为有效值,sa[0]必定为n是无效值*height[]= { 0, 0, 3, 2, 3, 1, 2, 0, 1 };height[2~n]为有效值*/int s[maxn];int sa[maxn],t1[maxn],t2[maxn],c[maxn];//构造字符串S的后缀数组,每个字符值必须为0~m-1void build_sa(int s[],int n,int m){ int *x=t1,*y=t2; for(int i=0;i<m;i++) c[i]=0; for(int i=0;i<n;i++) c[x[i]=s[i]]++; for(int i=1;i<m;i++) c[i]+=c[i-1]; for(int i=n-1;i>=0;i--) sa[--c[x[i]]]=i; for(int k=1;k<=n;k<<=1){ int p=0; for(int i=n-k;i<n;i++) y[p++]=i; for(int i=0;i<n;i++) if(sa[i]>=k) y[p++]=sa[i]-k; for(int i=0;i<m;i++) c[i]=0; for(int i=0;i<n;i++) c[x[y[i]]]++; for(int i=0;i<m;i++) c[i]+=c[i-1]; for(int i=n-1;i>=0;i--) sa[--c[x[y[i]]]]=y[i]; swap(x,y); p=1;x[sa[0]]=0; for(int i=1;i<n;i++) x[sa[i]]=y[sa[i-1]]==y[sa[i]]&&y[sa[i-1]+k]==y[sa[i]+k] ? p-1:p++; if(p>=n) break; m=p; }}int Rank[maxn],height[maxn];void getHeight(int s[],int n){ int k=0; for(int i=0;i<=n;i++) Rank[sa[i]]=i; for(int i=0;i<n;i++){ if(k) k--; int j=sa[Rank[i]-1]; while(s[i+k]==s[j+k]) k++; height[Rank[i]]=k; }}int dp[maxn][20];void RMQ_init(int n){ for(int i=1;i<=n;i++) dp[i][0]=height[i]; for(int j=1;(1<<j)<=n;j++) for(int i=1;i+(1<<j)-1<=n;i++) dp[i][j]=min(dp[i][j-1],dp[i+(1<<(j-1))][j-1]);}int rmq(int L,int R){ L=Rank[L],R=Rank[R]; if(L>R) swap(L,R); L++; int k=(int)log2(R-L+1); return min(dp[L][k],dp[R-(1<<k)+1][k]);}int main(){ int _,n; scanf("%d",&_); while(_--){ scanf("%d",&n); char c[2]; for(int i=0;i<n;i++) scanf("%s",c),s[i]=c[0]-'a'+1; s[n]=0; build_sa(s,n+1,10); getHeight(s,n); RMQ_init(n); int maxv=1; for(int l=1;l<=n/2;l++) //枚举长度 for(int i=0;i<=n;i+=l){ if(i+l>n) continue; int len=rmq(i,i+l); //printf("%d %d %d\n",i,i+l,len); int tmp=len/l+1,pre=i-(l-len%l); if((len%l!=0)&&pre>=0) if(rmq(pre,pre+l)>=l) tmp++; maxv=max(maxv,tmp); } printf("%d\n",maxv); } return 0;}
两个字符串相关的问题
常见的一种做法是先连接两个字符串,然后求后缀数组和height数组,利用height数组进行求解。
poj 2774 给你两个字符串A,B,求最长公共子串
传送门:poj2774 Long Long Message思路:字符串的任何一个子串都是这个字符串的某个后缀的前缀->由于要计算 A 的后缀和 B 的后缀的最长公共前缀,所以先将第二个字符串写在第一个字符串后面,中间用一个没有出现过的字符隔开,再求这个新的字符串的后缀数组。->当 suffix(sa[i-1])和suffix(sa[i])不是同一个字符串中的两个后缀时,判断答案。
#include<algorithm>#include<cstdio>#include<cmath>#include<cstring>using namespace std;const int maxn=200100;/**倍增算法nlogn*将待排序数组放在0~n-1中,在最后补一个0*build(,n+1,);//注意是n+1*getHeight(,n);*例如:*n = 8;*num[] = { 1, 1, 2, 1, 1, 1, 1, 2, $ };注意num最后一位为0,其他大于0*Rank[] = { 4, 6, 8, 1, 2, 3, 5, 7, 0 };Rank[0~n-1]为有效值,Rank[n]必定为0无效值*sa[] = { 8, 3, 4, 5, 0, 6, 1, 7, 2 };sa[1~n]为有效值,sa[0]必定为n是无效值*height[]= { 0, 0, 3, 2, 3, 1, 2, 0, 1 };height[2~n]为有效值*/int s[maxn];int sa[maxn],t1[maxn],t2[maxn],c[maxn];//构造字符串S的后缀数组,每个字符值必须为0~m-1void build_sa(int s[],int n,int m){ int *x=t1,*y=t2; for(int i=0;i<m;i++) c[i]=0; for(int i=0;i<n;i++) c[x[i]=s[i]]++; for(int i=1;i<m;i++) c[i]+=c[i-1]; for(int i=n-1;i>=0;i--) sa[--c[x[i]]]=i; for(int k=1;k<=n;k<<=1){ int p=0; for(int i=n-k;i<n;i++) y[p++]=i; for(int i=0;i<n;i++) if(sa[i]>=k) y[p++]=sa[i]-k; for(int i=0;i<m;i++) c[i]=0; for(int i=0;i<n;i++) c[x[y[i]]]++; for(int i=0;i<m;i++) c[i]+=c[i-1]; for(int i=n-1;i>=0;i--) sa[--c[x[y[i]]]]=y[i]; swap(x,y); p=1;x[sa[0]]=0; for(int i=1;i<n;i++) x[sa[i]]=y[sa[i-1]]==y[sa[i]]&&y[sa[i-1]+k]==y[sa[i]+k] ? p-1:p++; if(p>=n) break; m=p; }}int Rank[maxn],height[maxn];void getHeight(int s[],int n){ int k=0; for(int i=0;i<=n;i++) Rank[sa[i]]=i; for(int i=0;i<n;i++){ if(k) k--; int j=sa[Rank[i]-1]; while(s[i+k]==s[j+k]) k++; height[Rank[i]]=k; }}char str[maxn];int main(){ while(scanf("%s",str)!=EOF){ int len=strlen(str); str[len]='$'; scanf("%s",str+len+1); //printf("%s\n",str); int n=strlen(str); for(int i=0;i<=n;i++) s[i]=str[i]; build_sa(s,n+1,128); getHeight(s,n); int ans=0; for(int i=2;i<=n;i++){ if(1LL*(sa[i]-len)*(sa[i-1]-len)<0) ans=max(ans,height[i]); } printf("%d\n",ans); }}
子串的个数
poj 3415 给定两个字符串 A 和 B,求长度不小于 k 的公共子串的个数(可以相同) 。
传送门:poj 3415 Common Substrings思路:基本思路是计算 A 的所有后缀和 B 的所有后缀之间的最长公共前缀的长度,把最长公共前缀长度不小于 k 的部分全部加起来。先将两个字符串连起来,中间用一个没有出现过的字符隔开。按 height 值分组后,接下来的工作便是快速的统计每组中后缀之间的最长公共前缀之和。扫描一遍,每遇到一个 B 的后缀就统计与前面的 A 的后缀能产生多少个长度不小于 k 的公共子串, 这里 A 的后缀需要用一个单调的栈来高效的维护。然后对 A 也这样做一次。
#include<algorithm>#include<cstdio>#include<cmath>#include<cstring>using namespace std;const int maxn=401000;/**倍增算法nlogn*将待排序数组放在0~n-1中,在最后补一个0*build(,n+1,);//注意是n+1*getHeight(,n);*例如:*n = 8;*num[] = { 1, 1, 2, 1, 1, 1, 1, 2, $ };注意num最后一位为0,其他大于0*Rank[] = { 4, 6, 8, 1, 2, 3, 5, 7, 0 };Rank[0~n-1]为有效值,Rank[n]必定为0无效值*sa[] = { 8, 3, 4, 5, 0, 6, 1, 7, 2 };sa[1~n]为有效值,sa[0]必定为n是无效值*height[]= { 0, 0, 3, 2, 3, 1, 2, 0, 1 };height[2~n]为有效值*/int s[maxn];int sa[maxn],t1[maxn],t2[maxn],c[maxn];//构造字符串S的后缀数组,每个字符值必须为0~m-1void build_sa(int s[],int n,int m){ int *x=t1,*y=t2; for(int i=0;i<m;i++) c[i]=0; for(int i=0;i<n;i++) c[x[i]=s[i]]++; for(int i=1;i<m;i++) c[i]+=c[i-1]; for(int i=n-1;i>=0;i--) sa[--c[x[i]]]=i; for(int k=1;k<=n;k<<=1){ int p=0; for(int i=n-k;i<n;i++) y[p++]=i; for(int i=0;i<n;i++) if(sa[i]>=k) y[p++]=sa[i]-k; for(int i=0;i<m;i++) c[i]=0; for(int i=0;i<n;i++) c[x[y[i]]]++; for(int i=0;i<m;i++) c[i]+=c[i-1]; for(int i=n-1;i>=0;i--) sa[--c[x[y[i]]]]=y[i]; swap(x,y); p=1;x[sa[0]]=0; for(int i=1;i<n;i++) x[sa[i]]=y[sa[i-1]]==y[sa[i]]&&y[sa[i-1]+k]==y[sa[i]+k] ? p-1:p++; if(p>=n) break; m=p; }}int Rank[maxn],height[maxn];void getHeight(int s[],int n){ int k=0; for(int i=0;i<=n;i++) Rank[sa[i]]=i; for(int i=0;i<n;i++){ if(k) k--; int j=sa[Rank[i]-1]; while(s[i+k]==s[j+k]) k++; height[Rank[i]]=k; }}int r[maxn];char str[maxn];long long Count_pre[maxn],Count_suf[maxn];long long dp_pre[maxn],dp_suf[maxn];int main(){ int k; while(scanf("%d",&k)!=EOF){ if(k==0) break; scanf("%s",str); int len=strlen(str); memset(Count_pre,0,sizeof(Count_pre)); memset(Count_suf,0,sizeof(Count_suf)); memset(dp_pre,0,sizeof(dp_pre)); memset(dp_suf,0,sizeof(dp_suf)); str[len]='$'; scanf("%s",str+len+1); int n=strlen(str); for(int i=0;i<=n;i++) s[i]=str[i]; build_sa(s,n+1,150); getHeight(s,n); r[n]=n; //找到第一个比它小的 for(int i=n-1;i>=0;i--){ int tmp=i; while(tmp!=n&&height[i]<=height[tmp+1]) tmp=r[tmp+1]; r[i]=tmp; }// for(int i=0;i<=n;i++)// printf("height[%d] %d sa[%d] %d r[%d] %d\n",i,height[i],i,sa[i],i,r[i]); long long ans=0; for(int i=n;i>=1;i--){ if(sa[i]>len) Count_suf[i]=Count_suf[i+1]+1,dp_suf[i]=dp_suf[r[i]+1]+1LL*(height[i]-k+1)*(Count_suf[i]-Count_suf[r[i]+1]); else if(sa[i]<len){ Count_suf[i]=Count_suf[i+1]; ans+=dp_suf[i+1]; if(height[i]>=k) dp_suf[i]=dp_suf[r[i]+1]+1LL*(height[i]-k+1)*(Count_suf[i]-Count_suf[r[i]+1]); } if(height[i]<k) dp_suf[i]=0,Count_suf[i]=0; } //printf("%lld\n",ans); for(int i=n;i>=1;i--){ if(sa[i]<len) Count_pre[i]=Count_pre[i+1]+1,dp_pre[i]=dp_pre[r[i]+1]+1LL*(height[i]-k+1)*(Count_pre[i]-Count_pre[r[i]+1]); else if(sa[i]>len){ Count_pre[i]=Count_pre[i+1]; ans+=dp_pre[i+1]; if(height[i]>=k) dp_pre[i]=dp_pre[r[i]+1]+1LL*(height[i]-k+1)*(Count_pre[i]-Count_pre[r[i]+1]); } if(height[i]<k) dp_pre[i]=0,Count_pre[i]=0; } printf("%I64d\n",ans); } return 0;}
多个字符串的问题
poj 3294 出现在不小于k个字符串中的最长子串
传送门:poj 3294 Life Forms思路:先将这些字符串用未出现的字符相连,然后利用二分答案。
spoj 220 给定 n 个字符串,求在每个字符串中至少出现两次且不重叠的最长子串。
传送门:spoj 220 Relevant Phrases of Annihilation
思路:先将 n 个字符串连起来,中间用不相同的且没有
出现在字符串中的字符隔开,求后缀数组。然后二分答案,再将后缀分组。判断的时候,要看是否有一组后缀在每个原来的字符串中至少出现两次,并且在每个原来的字符串中,后缀的起始位置的最大值与最小值之差是否不小于当前答案(判断能否做到不重叠,如果题目中没有不重叠的要求,那么不用做此判断) 。poj 1226 给定 n 个字符串,求出现或反转后出现在每个字符串中的最长子串。
传送门:poj 1226 Substrings思路:只需要先将每个字符串都反过来写一遍,中间用一个互不相同的
且没有出现在字符串中的字符隔开,再将 n 个字符串全部连起来,中间也是用一个互不相同的且没有出现在字符串中的字符隔开,求后缀数组。然后二分答案,再将后缀分组。判断的时候,要看是否有一组后缀在每个原来的字符串或反转后的字符串中出现。这个做法的时间复杂度为 O(nlogn)。
- 后缀数组简单总结
- 后缀数组简单总结
- 【总结】 后缀数组
- 后缀数组总结
- 后缀数组总结
- 后缀数组总结
- 后缀数组总结
- 后缀数组总结
- 后缀数组总结
- 后缀数组学习总结
- [总结]后缀数组: 注释+模板
- 【新坑已填】后缀数组总结篇
- 字符串模板总结(四):后缀数组
- 后缀数组 (caioj)总结(?)
- 后缀树/后缀数组
- 后缀树 后缀数组
- 【后缀数组】后缀排序
- 后缀数组
- 百练 最简真分数
- Linux基础----------文件 IO 之 read 和 write (readn 、writen、readline)
- spring各个版本下载
- 分布式理论:关于一致性讨论
- 生成javadoc
- 后缀数组总结
- Go和Rust计算性能大比武
- 构造和析构
- Hive order by/sort by/distribute by/cluster by作用
- 最长公共前缀
- hdu 5778 abs【暴力枚举】
- sublime个性化设置
- 多线程编程---同步并发操作
- 软件长寿法则——七点