后缀数组(重复次数最多的连续重复子串)
来源:互联网 发布:金融数据挖掘python 编辑:程序博客网 时间:2024/05/17 01:39
POJ3693:Maximum repetition substring
题意:给定一个字符串,求重复次数最多的连续重复子串。
思路:先穷举长度L,然后求长度为L的子串最多能连续出现几次。首先连续出现1次是肯定可以的,所以这里只考虑至少2次的情况。假设在原字符串中连续出现2次,记这个子字符串为S,那么S肯定包括了字符r[0], r[L], r[L*2],r[L*3], ……中的某相邻的两个。所以只须看字符r[L*i]和r[L*(i+1)]往前和往后各能匹配到多远,记这个总长度为K,那么这里连续出现K/L+1次。最后看最大值是多少。但是l,l*2,l*3这些位置不一定是所求段的起始位置,于是我们可以再计算k对于长度l“多余”出来的长度,看它和现在的起始位置之前的能不能“拼起来”与模式段匹配使重复的次数+1。
/*** 倍增算法(n*logn)* 待排序数组长度为n,放在0~n-1中,在最后补0* sa为后缀数组,把后缀从小到大排序把后缀开头存起来,rank为名次数组,以i开头的后缀在所有后缀中排第几* sa的有效值为1~n,sa[0]必为n无效* rank的有效值为0~n-1,rank[n]必为0无效* height的有效值为2~n,前两个为0**/#include<cstdio>#include<cstring>#include<cstdlib>#include<iostream>#include<algorithm>using namespace std;const int maxn=1e6+10;int x[maxn];int wa[maxn],wb[maxn],ww[maxn],wv[maxn],nn,Z=1;char str[100010];int cmp(int *r,int a,int b,int l){ return r[a]==r[b]&&r[a+l]==r[b+l];}void da(int *r,int *sa,int n,int m)//求的数组,得到的后缀数组,最长长度+1,数组里的最大值(一般180或者255);{ int i,j,p,*x=wa,*y=wb,*t; for(i=0; i<m; i++) ww[i]=0; for(i=0; i<n; i++) ww[x[i]=r[i]]++; for(i=1; i<m; i++) ww[i]+=ww[i-1]; for(i=n-1; i>=0; i--) sa[--ww[x[i]]]=i; //处理长度为一的字符串,得到sa数组 for(j=1,p=1; p<n; j*=2,m=p) //倍增法求sa { for(p=0,i=n-j; i<n; i++) y[p++]=i; for(i=0; i<n; i++) if(sa[i]>=j) y[p++]=sa[i]-j;//利用上次的sa直接求出按第二个关键字排序 for(i=0; i<n; i++) wv[i]=x[y[i]]; //第二关键字的排序得出第一关键字的顺序 for(i=0; i<m; i++) ww[i]=0; for(i=0; i<n; i++) ww[wv[i]]++; for(i=1; i<m; i++) ww[i]+=ww[i-1]; for(i=n-1; i>=0; i--) sa[--ww[wv[i]]]=y[i]; //根据第一关键字的顺序排出sa数组的顺序 for(t=x,x=y,y=t,p=1,x[sa[0]]=0,i=1; i<n; i++) //更新x数组 x为rank数组 x[sa[i]]=cmp(y,sa[i-1],sa[i],j)?p-1:p++; } return ;}int h[maxn];//也就是排名相邻的两个后缀的最长公共前缀sa[i]和sa[i-1]int Rank[maxn];//名次数组void get_height(int *r,int *sa,int n)//同上,n小1{ int k=0,i,j; for(int i=1; i<=n; i++) Rank[sa[i]]=i; for(int i=0; i<n; h[Rank[i++]]=k) for(k?k--:0,j=sa[Rank[i]-1]; r[i+k]==r[j+k]; k++) ; return ;}int RMQ[maxn],mm[maxn],best[20][maxn];void initRMQ(int n)//初始化RMQ{ for(int i=1;i<=n;i++) RMQ[i]=h[i]; mm[0]=-1; for(int i=1;i<=n;i++) mm[i]=((i&(i-1))==0)?mm[i-1]+1:mm[i-1]; for(int i=1;i<=n;i++) best[0][i]=i; for(int i=1;i<=mm[n];i++) for(int j=1;j+(1<<i)-1<=n;j++) { int a=best[i-1][j]; int b=best[i-1][j+(1<<(i-1))]; if(RMQ[a]<RMQ[b]) best[i][j]=a; else best[i][j]=b; }}int askRMQ(int a,int b){ int t; t=mm[b-a+1]; b-=(1<<t)-1; a=best[t][a],b=best[t][b]; return RMQ[a]<RMQ[b]?a:b;}int lcp(int a,int b)//询问a,b后缀的最长公共前缀{ a=Rank[a],b=Rank[b]; if(a>b) swap(a,b); return h[askRMQ(a+1,b)];}int a[maxn];int sa[maxn],r[maxn];//int judge(int mid)//分组//{// int ans=1,mx=sa[1],mi=sa[1];// for(int i=2; i<=nn; i++)// {// if(h[i]>=mid)//首先最长公共前缀肯定要大于现在枚举的长度// {// ans++;//看连续的到底有几个// mx=max(mx,sa[i]),mi=min(mi,sa[i]);//这一组中,长度最大(小)的子串是多长// }// else//重新分组// {// ans=1;// mx=sa[1],mi=sa[1];// }// if(ans>=k)//次数超过了,那么这个k长度下是可行的// return 1;// }// return 0;//}int solve(int n){ int k,l,Max=-1,ans[100010],len; for(l=1;l<=n-1;l++)//枚举长度 { for(int i=0;l+i<n;i+=l)//计算i*l~i*l+l { k=lcp(i,i+l); int m=k/l+1;//m是重复的次数 int t=i-(l-k%l);//判断不是起始位置的时候 前移t位整除l if(t>=0&&k%l)//不是起始位置&&t>=0 { if(lcp(t,t+l)>=k) m++; } if(m>Max)//更新m和答案 { len=0; ans[len++]=l; Max=m; } else if(m==Max)//次数相同的存起来 { ans[len++]=l; } } } int start,flag=0; for(int i=1;i<=n;i++) { if(flag) break; for(int j=0;j<len;j++) { int tmp=ans[j];//存的满足答案的长度 if(lcp(sa[i],sa[i]+tmp)>=(Max-1)*tmp)//判断字典序最小 sa数组本来就是按照字典序排的 { start=sa[i];//记录初始位置 l=tmp*Max;//最大长度值 flag=1; break; } } } printf("Case %d: ",Z++);//输出答案 for(int i=0;i<l;i++) printf("%c",str[start+i]); printf("\n");}int main(){ while(~scanf("%s",str)) { if(str[0]=='#') break; nn=strlen(str); for(int i=0; i<nn; i++) x[i]=str[i]; x[nn]=0; da(x,sa,nn+1,255); get_height(x,sa,nn); initRMQ(nn); solve(nn); }}
0 0
- 后缀数组(重复次数最多的连续重复子串)
- 【后缀数组求重复次数最多的连续重复子串】SPOJ687 POJ3693
- POJ 3693 重复次数最多的连续重复子串 后缀数组
- poj3693 ,spoj687 重复次数最多的连续重复子串 后缀数组
- 后缀数组(重复次数最多的连续重复子串)好poj3693+spoj687
- SPOJ 687 Repeats (后缀数组+RMQ 重复次数最多的连续重复子串)
- Maximum repetition substring+POj+后缀数组之求重复次数最多的连续重复子串
- POJ - 3693 Maximum repetition substring(后缀数组求重复次数最多的连续重复子串)
- poj 3693 后缀数组 重复次数最多的连续重复子串
- poj 3693 重复次数最多的连续重复子串(后缀数组+RMQ)
- SPOJ REPEATS - Repeats(后缀数组[重复次数最多的连续重复子串])
- POJ 3693 Maximum repetition substring(后缀数组[重复次数最多的连续重复子串])
- spoj687 重复次数最多的连续重复子串(后缀数组)
- hihoCoder 1419 后缀数组四·重复旋律4(重复次数最多的连续子串)
- POJ 3693 后缀数组 重复次数最多的连续重复子串 倍增法以及D3法
- poj 3693/hdu 2459 Maximum repetition substring spoj 687. Repeats ( 后缀数组 重复次数最多的连续重复子串)
- poj 1743Maximum repetition substring(后缀数组+RMQ+重复次数最多的连续重复子串))
- 重复次数最多的连续字串 后缀数组板子 黑盒子
- 索引文件浅析
- OpenSSL 与 SSL 数字证书概念贴
- Vue.js教程6-列表渲染
- Android-EditText只能输入不能删除的问题
- POJ 2362 Square
- 后缀数组(重复次数最多的连续重复子串)
- php读取csv文件,在linux上出现中文读取不到的情况 解决方法
- Cube Sphere (国外技术文章收藏)
- ZOJ3623: Battle Ships(类完全背包)
- Pycharm 2016.3 注册码
- Oracle 数据库导入导出(imp/exp)
- 求各个位数的值相加起来的总和是多少
- 是时候搭建起自己的云盘服务了
- swift 本地归档、解档储存