夕拾算法进阶篇:21)最长公共子串(DP+后缀数组)
来源:互联网 发布:电信网络报维修 编辑:程序博客网 时间:2024/04/30 06:30
动态规划
令二维数组dp[i][j]表示字符串A的i号位和字符串B的j号位之前的最长公共子串,那么A[i]和B[j]可以分为2种情况:
(1)A[i]==B[j],说明字符串A与字符串B的最长公共子序列长度又增加了1位,即dp[i][j]=dp[i-1][j-1]+1
(2)若A[i]!=B[j],说明字符串A的i号位和字符串B的j号位之前的最长公共子串为0。即d[i][j]=0
根据上面的分析,很容易写出状态转移方面的代码:
dp[i][j]= (A[i]==B[j] ? d[i-1][j-1]+1:0) (1<=i<=An,1<=j<=Bn)
相应的代码如下:
#include <cstdio>using namespace std; const int M=1000+6;int dp[M][M];char str1[M],str2[M]; int main(){int i,j;//从数组的下标1开始读取字符串 while(scanf("%s%s",str1+1,str2+1)!=EOF){int max=-1; for(i=1;str1[i];i++){for(j=1;str2[j];j++){if(str1[i]==str2[j]){dp[i][j]=dp[i-1][j-1]+1;if(max<dp[i][j]){ //保存最大的公共子串长度max=dp[i][j];} }else{dp[i][j]=0;}}}printf("%d\n",max);}}
因为dp[i][j]只与dp[i-1][j-1]有关,换句话说,第i行只与i-1行有关,因此可以把二维的dp数组换成一维的,但需要逆序枚举j,这和01背包的降维是一致的,dp[j]左边的给当前i行使用,dp[j]右边的给下一行使用。这样不仅优化了空间复杂度,而且还可以处理较长的字符串。修改后的代码如下:
#include <cstdio>#include <cstring>using namespace std; const int M=100000+6;int dp[M];char str1[M],str2[M]; int main(){int i,j,len1,len2,max;//从数组的下标1开始读取字符串 while(scanf("%s%s",str1+1,str2+1)!=EOF){memset(dp,0,sizeof(dp));max=-1; //注意求长度的为str的地址+1 len1=strlen(str1+1); len2=strlen(str2+1);for(i=len1;i>=1;i--){ //str1和str2从末端开始比较 for(j=len2;j>=1;j--){if(str1[i]==str2[j]){dp[j]=dp[j-1]+1;if(max<dp[j]){max=dp[j];} }else{dp[j]=0;}}}printf("%d\n",max);}}
后缀数组
动态规划的方法无论怎么优化时间复杂度都为O(n^2),而使用后缀数组可以最优可以让时间复杂度降到O(n)。
后缀数组可以算得上是处理字符串的利器,现在又成熟的模板代码,这里不详细介绍,以后有时间定专门研究下,感兴趣的同学可以参看09年罗穗骞大神的论文《后缀数组——处理字符串的有力工具》。
题意:判断给定的两个串中,最长的公共串。
思路:将它们合并为一个串,然后利用后缀数组求解。
首先是二倍增算法:时间复杂度为O(n*log(n))
#include <stdio.h>#include <string.h>#define max 1000010int wa[max],wb[max],wv[max],ws[max];int rank[max],height[max];int sa[max],r[max];char str[max*2];int cmp(int *r,int a,int b,int l){ return r[a]==r[b]&&r[a+l]==r[b+l];}void da(int *r,int *sa,int n,int m){ int i,j,p,*x=wa,*y=wb,*t; for(i=0; i<m; i++) ws[i]=0; for(i=0; i<n; i++) ws[x[i]=r[i]]++; for(i=1; i<m; i++) ws[i]+=ws[i-1]; for(i=n-1; i>=0; i--) sa[--ws[x[i]]]=i; for(p=1,j=1; p<n; j*=2,m=p) { for(p=0,i=n-j; i<n; i++) y[p++]=i; for(i=0; i<n; i++) if(sa[i]>=j) y[p++]=sa[i]-j; for(i=0; i<n; i++) wv[i]=x[y[i]]; for(i=0; i<m; i++) ws[i]=0; for(i=0; i<n; i++) ws[wv[i]]++; for(i=1; i<m; i++) ws[i]+=ws[i-1]; for(i=n-1; i>=0; i--) sa[--ws[wv[i]]]=y[i]; for(t=x,x=y,y=t,p=1,x[sa[0]]=0,i=1; i<n; i++ ) x[sa[i]]=cmp(y,sa[i-1],sa[i],j)?p-1:p++; }}void calheight(int *r,int *sa,int n){ int i,j,k=0; for(i=1; i<=n; i++) rank[sa[i]]=i; for(i=0; i<n; height[rank[i++]]=k) for(k?k--:0,j=sa[rank[i]-1]; r[i+k]==r[j+k]; k++);}int main(){ while(scanf("%s",str)!=EOF) { int len=strlen(str); int len1=len; str[len]='9'; scanf("%s",str+len1+1); len=strlen(str); for(int i=0;i<len;i++) r[i]=str[i]; r[len]=0; da(r,sa,len,300); calheight(r,sa,len); int maxint=0; for(int i=2; i<len; i++) { if(maxint<height[i]) { if((sa[i]>len1&&sa[i-1]<len1)||(sa[i]<len1&&sa[i-1]>len1)) maxint=height[i]; } } printf("%d\n",maxint); } return 0;}
DC3算法的时间复杂度为:O(n)
#include <stdio.h>#include <string.h>#define N 4000010#define F(x) x/3+(x%3==1? 0:tb)#define G(x) x<tb? x*3+1:(x-tb)*3+2int wa[N],wb[N],wv[N],ws[N],sa[N],r[N];int height[N],rank[N];char str[N*2];int c0(int *r,int a,int b){ return r[a]==r[b]&&r[a+1]==r[b+1]&&r[a+2]==r[b+2];}int c12(int k,int *r,int a,int b){ if(k==2) return r[a]<r[b]||r[a]==r[b]&&c12(1,r,a+1,b+1); else return r[a]<r[b]||r[a]==r[b]&&wv[a+1]<wv[b+1];}void sort(int *r,int *a,int *b,int n,int m){ int i; for(i=0;i<n;i++) wv[i]=r[a[i]]; for(i=0;i<m;i++) ws[i]=0; for(i=0;i<n;i++) ws[wv[i]]++; for(i=1;i<m;i++) ws[i]+=ws[i-1]; for(i=n-1;i>=0;i--) b[--ws[wv[i]]]=a[i];}void dc3(int *r,int *sa,int n,int m){ int i,j,*rn=r+n,*san=sa+n,ta=0,tb=(n+1)/3,tbc=0,p; r[n]=r[n+1]=0; for(i=0;i<n;i++) if(i%3!=0) wa[tbc++]=i; sort(r+2,wa,wb,tbc,m); sort(r+1,wb,wa,tbc,m); sort(r,wa,wb,tbc,m); for(p=1,rn[F(wb[0])]=0,i=1;i<tbc;i++) rn[F(wb[i])]=c0(r,wb[i-1],wb[i])? p-1:p++; if(p<tbc) dc3(rn,san,tbc,p); else for(i=0;i<tbc;i++) san[rn[i]]=i; for(i=0;i<tbc;i++) if(san[i]<tb) wb[ta++]=san[i]*3; if(n%3==1) wb[ta++]=n-1; sort(r,wb,wa,ta,m); for(i=0;i<tbc;i++) wv[wb[i]=G(san[i])]=i; for(i=0,j=0,p=0;i<ta&&j<tbc;p++) sa[p]=c12(wb[j]%3,r,wa[i],wb[j])? wa[i++]:wb[j++]; for(;i<ta;p++) sa[p]=wa[i++]; for(;j<tbc;p++) sa[p]=wb[j++];}void calheight(int *r,int *sa,int n){ int i,j,k=0; for(i=1; i<=n; i++) rank[sa[i]]=i; for(i=0; i<n; height[rank[i++]]=k) for(k?k--:0,j=sa[rank[i]-1]; r[i+k]==r[j+k]; k++);}int main(){ while(scanf("%s",str)!=EOF) { int len=strlen(str); int len1=len; str[len]='9'; scanf("%s",str+len1+1); len=strlen(str); for(int i=0;i<len;i++) r[i]=str[i]; r[len]=0; //注意最后一个元素尽量小,所以为0合适 dc3(r,sa,len,300); calheight(r,sa,len); int maxint=0; for(int i=2; i<len; i++) { if(maxint<height[i]) { if((sa[i]>len1&&sa[i-1]<len1)||(sa[i]<len1&&sa[i-1]>len1)) maxint=height[i]; } } printf("%d\n",maxint); } return 0;}
参考:http://blog.csdn.net/acdreamers/article/details/8583796
题目来源:http://acm.hdu.edu.cn/showproblem.php?pid=1403
- 夕拾算法进阶篇:21)最长公共子串(DP+后缀数组)
- 夕拾算法进阶篇:15)最长公共子序列(动态规划DP)
- 实用算法实现-第 8 篇后缀树和后缀数组 [2 最长公共子串]
- 最长公共子串--后缀数组实现
- HDU1403(后缀数组--最长公共子串)
- 最长公共子串(后缀数组)
- 最长公共子串(后缀数组)
- 【poj2774】 后缀数组最长公共子串
- 后缀数组 最长公共子串
- 实用算法实现-第 8 篇后缀树和后缀数组 [3 两个字符串的最长公共子串]
- [CODEVS3160]最长公共子串|后缀数组|后缀自动机
- 夕拾算法进阶篇:16)最长回文子串(动态规划DP)
- PKU 2774(后缀数组求最长公共子串)
- 【后缀数组求最长公共子串】POJ 2774
- 最长公共子串问题的后缀数组解法
- poj 2774 后缀数组 最长公共子串
- Ural1517 Freedom of choice, 后缀数组,最长公共子串
- 最长公共子串问题的后缀数组解法
- 奖学金
- Android中传递对象的三种方法
- jvm系列三:jvm内存调优
- 1033. 旧键盘打字(20)
- spring事务配置五种方式
- 夕拾算法进阶篇:21)最长公共子串(DP+后缀数组)
- 第二个代码模型:数据表与简单Java类映射
- 关于PHP的session问题
- 自定义KeyboardToolBar
- linux下安装libnfc实践
- 1036. 跟奥巴马一起编程(15)
- 前端工程师-->全栈工程师 = 2 天
- 1037. 在霍格沃茨找零钱(20)
- String.format格式化