夕拾算法进阶篇:21)最长公共子串(DP+后缀数组)

来源:互联网 发布:电信网络报维修 编辑:程序博客网 时间:2024/04/30 06:30

动态规划

这里首先区分最长最长公共子序列和最长公共子串,子串要求是连续的,而序列不要求,在之前的博客中讨论过如果用DP来解决最长公共序列的问题,子串和子序列的解决方法类似。

令二维数组dp[i][j]表示字符串A的i号位和字符串B的j号位之前的最长公共子串,那么A[i]和B[j]可以分为2种情况:

(1)A[i]==B[j],说明字符串A与字符串B的最长公共子序列长度又增加了1位,即dp[i][j]=dp[i-1][j-1]+1

(2)若A[i]!=B[j],说明字符串A的i号位和字符串B的j号位之前的最长公共子串为0。即d[i][j]=0

根据上面的分析,很容易写出状态转移方面的代码:

                      dp[i][j]= (A[i]==B[j] ? d[i-1][j-1]+1:0)            (1<=i<=An,1<=j<=Bn)

 相应的代码如下:

#include <cstdio>using namespace std; const int M=1000+6;int dp[M][M];char str1[M],str2[M];  int main(){int i,j;//从数组的下标1开始读取字符串 while(scanf("%s%s",str1+1,str2+1)!=EOF){int max=-1; for(i=1;str1[i];i++){for(j=1;str2[j];j++){if(str1[i]==str2[j]){dp[i][j]=dp[i-1][j-1]+1;if(max<dp[i][j]){ //保存最大的公共子串长度max=dp[i][j];} }else{dp[i][j]=0;}}}printf("%d\n",max);}}

因为dp[i][j]只与dp[i-1][j-1]有关,换句话说,第i行只与i-1行有关,因此可以把二维的dp数组换成一维的,但需要逆序枚举j,这和01背包的降维是一致的,dp[j]左边的给当前i行使用,dp[j]右边的给下一行使用。这样不仅优化了空间复杂度,而且还可以处理较长的字符串。修改后的代码如下:

#include <cstdio>#include <cstring>using namespace std; const int M=100000+6;int dp[M];char str1[M],str2[M];  int main(){int i,j,len1,len2,max;//从数组的下标1开始读取字符串 while(scanf("%s%s",str1+1,str2+1)!=EOF){memset(dp,0,sizeof(dp));max=-1; //注意求长度的为str的地址+1 len1=strlen(str1+1); len2=strlen(str2+1);for(i=len1;i>=1;i--){ //str1和str2从末端开始比较 for(j=len2;j>=1;j--){if(str1[i]==str2[j]){dp[j]=dp[j-1]+1;if(max<dp[j]){max=dp[j];} }else{dp[j]=0;}}}printf("%d\n",max);}}

后缀数组

动态规划的方法无论怎么优化时间复杂度都为O(n^2),而使用后缀数组可以最优可以让时间复杂度降到O(n)。

后缀数组可以算得上是处理字符串的利器,现在又成熟的模板代码,这里不详细介绍,以后有时间定专门研究下,感兴趣的同学可以参看09年罗穗骞大神的论文《后缀数组——处理字符串的有力工具》。

题意:判断给定的两个串中,最长的公共串。
思路:将它们合并为一个串,然后利用后缀数组求解。
首先是二倍增算法:时间复杂度为O(n*log(n))

#include <stdio.h>#include <string.h>#define max 1000010int wa[max],wb[max],wv[max],ws[max];int rank[max],height[max];int sa[max],r[max];char str[max*2];int cmp(int *r,int a,int b,int l){    return r[a]==r[b]&&r[a+l]==r[b+l];}void da(int *r,int *sa,int n,int m){    int i,j,p,*x=wa,*y=wb,*t;    for(i=0; i<m; i++) ws[i]=0;    for(i=0; i<n; i++) ws[x[i]=r[i]]++;    for(i=1; i<m; i++) ws[i]+=ws[i-1];    for(i=n-1; i>=0; i--) sa[--ws[x[i]]]=i;    for(p=1,j=1; p<n; j*=2,m=p)    {        for(p=0,i=n-j; i<n; i++) y[p++]=i;        for(i=0; i<n; i++) if(sa[i]>=j) y[p++]=sa[i]-j;        for(i=0; i<n; i++) wv[i]=x[y[i]];        for(i=0; i<m; i++) ws[i]=0;        for(i=0; i<n; i++) ws[wv[i]]++;        for(i=1; i<m; i++) ws[i]+=ws[i-1];        for(i=n-1; i>=0; i--)            sa[--ws[wv[i]]]=y[i];        for(t=x,x=y,y=t,p=1,x[sa[0]]=0,i=1; i<n; i++ )            x[sa[i]]=cmp(y,sa[i-1],sa[i],j)?p-1:p++;    }}void calheight(int *r,int *sa,int n){    int i,j,k=0;    for(i=1; i<=n; i++)        rank[sa[i]]=i;    for(i=0; i<n; height[rank[i++]]=k)        for(k?k--:0,j=sa[rank[i]-1]; r[i+k]==r[j+k]; k++);}int main(){    while(scanf("%s",str)!=EOF)    {        int len=strlen(str);        int len1=len;        str[len]='9';        scanf("%s",str+len1+1);        len=strlen(str);        for(int i=0;i<len;i++)            r[i]=str[i];        r[len]=0;        da(r,sa,len,300);        calheight(r,sa,len);        int maxint=0;        for(int i=2; i<len; i++)        {            if(maxint<height[i])            {                if((sa[i]>len1&&sa[i-1]<len1)||(sa[i]<len1&&sa[i-1]>len1))                    maxint=height[i];            }        }        printf("%d\n",maxint);    }    return 0;}

DC3算法的时间复杂度为:O(n)

#include <stdio.h>#include <string.h>#define N 4000010#define F(x) x/3+(x%3==1? 0:tb)#define G(x) x<tb? x*3+1:(x-tb)*3+2int wa[N],wb[N],wv[N],ws[N],sa[N],r[N];int height[N],rank[N];char str[N*2];int c0(int *r,int a,int b){    return r[a]==r[b]&&r[a+1]==r[b+1]&&r[a+2]==r[b+2];}int c12(int k,int *r,int a,int b){    if(k==2) return r[a]<r[b]||r[a]==r[b]&&c12(1,r,a+1,b+1);    else     return r[a]<r[b]||r[a]==r[b]&&wv[a+1]<wv[b+1];}void sort(int *r,int *a,int *b,int n,int m){    int i;    for(i=0;i<n;i++) wv[i]=r[a[i]];    for(i=0;i<m;i++) ws[i]=0;    for(i=0;i<n;i++) ws[wv[i]]++;    for(i=1;i<m;i++) ws[i]+=ws[i-1];    for(i=n-1;i>=0;i--) b[--ws[wv[i]]]=a[i];}void dc3(int *r,int *sa,int n,int m){    int i,j,*rn=r+n,*san=sa+n,ta=0,tb=(n+1)/3,tbc=0,p;    r[n]=r[n+1]=0;    for(i=0;i<n;i++) if(i%3!=0) wa[tbc++]=i;    sort(r+2,wa,wb,tbc,m);    sort(r+1,wb,wa,tbc,m);    sort(r,wa,wb,tbc,m);    for(p=1,rn[F(wb[0])]=0,i=1;i<tbc;i++)       rn[F(wb[i])]=c0(r,wb[i-1],wb[i])? p-1:p++;    if(p<tbc) dc3(rn,san,tbc,p);    else for(i=0;i<tbc;i++) san[rn[i]]=i;    for(i=0;i<tbc;i++) if(san[i]<tb) wb[ta++]=san[i]*3;    if(n%3==1) wb[ta++]=n-1;    sort(r,wb,wa,ta,m);    for(i=0;i<tbc;i++) wv[wb[i]=G(san[i])]=i;    for(i=0,j=0,p=0;i<ta&&j<tbc;p++)       sa[p]=c12(wb[j]%3,r,wa[i],wb[j])? wa[i++]:wb[j++];    for(;i<ta;p++) sa[p]=wa[i++];    for(;j<tbc;p++) sa[p]=wb[j++];}void calheight(int *r,int *sa,int n){    int i,j,k=0;    for(i=1; i<=n; i++)        rank[sa[i]]=i;    for(i=0; i<n; height[rank[i++]]=k)        for(k?k--:0,j=sa[rank[i]-1]; r[i+k]==r[j+k]; k++);}int main(){    while(scanf("%s",str)!=EOF)    {        int len=strlen(str);        int len1=len;        str[len]='9';        scanf("%s",str+len1+1);        len=strlen(str);        for(int i=0;i<len;i++)           r[i]=str[i];        r[len]=0;           //注意最后一个元素尽量小,所以为0合适        dc3(r,sa,len,300);        calheight(r,sa,len);        int maxint=0;        for(int i=2; i<len; i++)        {            if(maxint<height[i])            {                if((sa[i]>len1&&sa[i-1]<len1)||(sa[i]<len1&&sa[i-1]>len1))                    maxint=height[i];            }        }        printf("%d\n",maxint);    }    return 0;}

参考:http://blog.csdn.net/acdreamers/article/details/8583796

题目来源:http://acm.hdu.edu.cn/showproblem.php?pid=1403

0 0
原创粉丝点击