java 动态规划求解最长公共子序列&最长公共子串问题

来源:互联网 发布:3dmax mac中文破解版 编辑:程序博客网 时间:2024/06/06 05:23

1、先科普下最长公共子序列 & 最长公共子串的区别:

找两个字符串的最长公共子串,这个子串要求在原字符串中是连续的。而最长公共子序列则并不要求连续。

2、最长公共子序列

字符序列的子序列是指从给定字符序列中随意地(不一定连续)去掉若干个字符(可能一个也不去掉)后所形成的字符序列。令给定的字符序列X=“x0,x1,…,xm-1”,序列Y=“y0,y1,…,yk-1”是X的子序列,存在X的一个严格递增下标序列<i0,i1,…,ik-1>,使得对所有的j=0,1,…,k-1,有xij=yj。例如,X=“ABCBDAB”,Y=“BCDB”是X的一个子序列。

考虑最长公共子序列问题如何分解成子问题,设A=“a0,a1,…,am-1”,B=“b0,b1,…,bm-1”,并Z=“z0,z1,…,zk-1”为它们的最长公共子序列。不难证明有以下性质:
(1) 如果am-1=bn-1,则zk-1=am-1=bn-1,且“z0,z1,…,zk-2”是“a0,a1,…,am-2”和“b0,b1,…,bn-2”的一个最长公共子序列;
(2) 如果am-1!=bn-1,则若zk-1!=am-1,蕴涵“z0,z1,…,zk-1”是“a0,a1,…,am-2”和“b0,b1,…,bn-1”的一个最长公共子序列;
(3) 如果am-1!=bn-1,则若zk-1!=bn-1,蕴涵“z0,z1,…,zk-1”是“a0,a1,…,am-1”和“b0,b1,…,bn-2”的一个最长公共子序列。
这样,在找A和B的公共子序列时,如有am-1=bn-1,则进一步解决一个子问题,找“a0,a1,…,am-2”和“b0,b1,…,bm-2”的一个最长公共子序列;如果am-1!=bn-1,则要解决两个子问题,找出“a0,a1,…,am-2”和“b0,b1,…,bn-1”的一个最长公共子序列和找出“a0,a1,…,am-1”和“b0,b1,…,bn-2”的一个最长公共子序列,再取两者中较长者作为A和B的最长公共子序列。
求解:
引进一个二维数组c[][],用c[i][j]记录X[i]与Y[j] 的LCS 的长度,b[i][j]记录c[i][j]是通过哪一个子问题的值求得的,以决定搜索的方向。
我们是自底向上进行递推计算,那么在计算c[i,j]之前,c[i-1][j-1],c[i-1][j]与c[i][j-1]均已计算出来。此时我们根据X[i] = Y[j]还是X[i] != Y[j],就可以计算出c[i][j]。

问题的递归式写成:

回溯输出最长公共子序列过程:

/*
* 最长公共子序列(可以不连续)
*/
public static String levenshtein(String str1, String str2) {
// 计算两个字符串的长度
int len1 = str1.length();
int len2 = str2.length();


// 建立上面说的数组,比字符长度大一个空间
int[][] dif = new int[len1 + 1][len2 + 1];
// 赋初值,步骤B
for (int a = 0; a <= len1; a++) {
dif[a][0] = a;
}
for (int a = 0; a <= len2; a++) {
dif[0][a] = a;
}
// 计算两个字符是否一样,计算左上的值
int temp;
for (int i = 1; i <= len1; i++) {
for (int j = 1; j <= len2; j++) {
if (str1.charAt(i - 1) == str2.charAt(j - 1)) {
temp = 0;
} else {
temp = 1;
}
// 取3个值中最小的
dif[i][j] = min(dif[i - 1][j - 1] + temp, dif[i][j - 1] + 1,
dif[i - 1][j] + 1);
}
}


// System.out.println("字符串\"" + str1 + "\"与\"" + str2 + "\"的比较");
// 取数组右下角的值,同样不同位置代表不同字符串的比较
// System.out.println("差异步骤" + dif[len1][len2]);
// 计算相似度
float similarity = 1 - (float) dif[len1][len2]
/ Math.max(str1.length(), str2.length());
// System.out.println("相似度:" + similarity);
return String.valueOf(similarity);

private static int min(int... is) {
int min = Integer.MAX_VALUE;
for (int i : is) {
if (min > i) {
min = i;
}
}
return min;
}

3、最长公共子串

其实这是一个序贯决策问题,可以用动态规划来求解。我们采用一个二维矩阵来记录中间的结果。这个二维矩阵怎么构造呢?直接举个例子吧:"bab"和"caba"(当然我 们现在一眼就可以看出来最长公共子串是"ba"或"ab")


   
  b  a  b


c  0  0  0


a  0  1  0


b  1  0  1


a  0  1  0


我们看矩阵的斜对角线最长的那个就能找出最长公共子串。


不过在二维矩阵上找最长的由1组成的斜对角线也是件麻烦费时的事,下面改进:当要在矩阵是填1时让它等于其左上角元素加1。


   b  a  b


c  0  0  0


a  0  1  0


b  1  0  2


a  0  2  0

这样矩阵中的最大元素就是 最长公共子串的长度。

/**
* 最长公共子串(连续)
* 在动态规划矩阵生成方式当中,每生成一行,前面的那一行就已经没有用了,因此这里只需使用一维数组,而不是常用的二位数组
* @param str1
* @param str2
*/
public static int getLCString(char[] str1, char[] str2) {
int len1, len2;
len1 = str1.length;
len2 = str2.length;

int maxLen = len1 > len2 ? len1 : len2;
int[] max = new int[maxLen];// 保存最长子串长度的数组
int[] maxIndex = new int[maxLen];// 保存最长子串长度最大索引的数组
int[] c = new int[maxLen]; // 记录对角线上的相等值的个数


int i, j;
for (i = 0; i < len2; i++) {
for (j = len1 - 1; j >= 0; j--) {
if (str2[i] == str1[j]) {
if ((i == 0) || (j == 0))
c[j] = 1;
else
c[j] = c[j - 1] + 1;// 此时C[j-1]还是上次循环中的值,因为还没被重新赋值
} else {
c[j] = 0;
}


// 如果是大于那暂时只有一个是最长的,而且要把后面的清0;
if (c[j] > max[0]) {
max[0] = c[j]; // 记录对角线元素的最大值,之后在遍历时用作提取子串的长度
maxIndex[0] = j; // 记录对角线元素最大值的位置


for (int k = 1; k < maxLen; k++) {
max[k] = 0;
maxIndex[k] = 0;
}
}
// 有多个是相同长度的子串
else if (c[j] == max[0]) {
for (int k = 1; k < maxLen; k++) {
if (max[k] == 0) {
max[k] = c[j];
maxIndex[k] = j;
break; // 在后面加一个就要退出循环了
}
}
}
}
// for (int temp : c) {
// System.out.print(temp);
// }
// System.out.println();
}
// 打印最长子字符串
for (j = 0; j < maxLen; j++) {
if (max[j] > 0) {
return max[j];
}
}
return 0;
}



0 0