《算法导论》学习笔记——最长公共子序列(动态规划)

来源:互联网 发布:linux删除文件恢复 编辑:程序博客网 时间:2024/06/01 10:42

最长公共子序列(LongestCommonSubsequence Problem;LCS)

问题描述

给定两个序列X=x1,x2,x3...,xmY=y1,y2,y3,...,yn,求X和Y的最长公共子序列。

例子:X=A,B,C,B,D,A,By=B,D,C,A,B,A,最长公共子序列为B,C,B,A

注意:最长公共字串(LongestCommonSubstring)要求元素必须连续,最长公共子序列不要求,只要求子序列前后顺序不变。

问题意义:一种衡量两个序列“相似度”的方法,最长公共子序列越长,两者相似度越高。
补充:其他衡量两个序列/串相似度的方法:
1.如果,将一个串转换成另一个串的所需的操作步骤很少,那么两者是相似的;(《编程之美》字符串距离;《算法导论》15-5编辑距离)
2.如果一个串为另一个串的子串,那么两者是相似的。(字符串匹配)

解题思路

1.暴力破解法:X的子序列共有2^m种,对于每一种X的子序列判断是否为Y的子集,Y的子序列有2^m种,需要指数级别的时间复杂度O(2^(m+n))。
2.动态规划法,时间复杂度O(m*n)。

动态规划

1.刻画LCS最优解的结构特征

定义:X=x1,x2,x3...,xm的第i个前缀为Xi=x1,x2,x3...,xi (i<=m,i=0的Xi为空串)
X=x1,x2,x3...,xmY=y1,y2,y3,...,yn为两个序列,Z=z1,z2,z3,...,zkXY的任意LCS。
LCS的最优子结构:
1.如果xm=yn,则zk=xm=ynZk1Xm1Yn1的一个LCS。
2.如果xmyn,那么zkxm意味着ZXm1Y的一个LCS。
3.如果xmyn,那么zkyn意味着ZXYn1的一个LCS。

2.一个递归的求解方案

设计LCS的算法首先要建立最优解的递归式。我们定义c[i,j]表示XiYj的LCS的长度,根据LCS问题的最优子结构性质,可得到如下公式:
c[i,j]=0,i=0j=0
c[i,j]=c[i1,j1]+1,i,j>0xi=yj
c[i,j]=max(c[i1,j],c[i,j1]),i,j>0xiyj

3.计算最优代价

LCS问题只有O(m*n)个不同的子问题,可以用自底向上的动态规划算法实现。
表b用于构造最优解,表c用于用于记录LCS长度,伪代码如下:

LCS-LENGTH(X,Y)m = X.lengthn = Y.lengthlet b[1...m,1..n] and c[0...m,0...n] be new tablesfor i = 1 to m  c[i,0] = 0for i = 1 to n  c[0,i] = 0for i = 1 to m  for j = 1 to n    if xi = yj      c[i,j] = c[i-1,j-1] + 1      b[i,j] = '↖'    elseif c[i-1,j] >= c[i,j-1]      c[i,j] = c[i-1,j]      b[i,j] = '↑'    else      c[i,j] = c[i,j-1]      b[i,j] = '←'return b and c

4.构造最优解

利用表b构造出最优解,起始调用为PRINT-LCS(b,X,X.length,Y.length)
伪代码如下:

PRINT-LCS(b,X,i,j)if i == 0 or j == 0  returnelseif b[i,j] == '↖'  PRINT-LCS(b,X,i-1,j-1)  print xielseif b[i,j] == '↑'  PRINT-LCS(b,X,i-1,j)else  PRINT-LCS(b,X,i,j-1)

优化

1.去除表b,只利用c重构出LCS的元素。
2.如果只计算LCS的长度,不需重构LCS中的元素,那么c表只需要两行就可以了,空间需求减少为O(min(m,n))。

1 0
原创粉丝点击