对LCS算法及其变种的初步研究

来源:互联网 发布:有关大数据的例子 编辑:程序博客网 时间:2024/04/30 14:38

LCS的全称为Longest Common Subsequence,用于查找两个字符串中的最大公共子序列,这里需要注意区分子序列与子串,所谓子序列,指的是从前到后,可以跳跃元素筛选,而字串则必须连续筛选。

例如AB##!C!@#E和AB123CC321E两个字符串,如果找最长公共字串,只能是AB;如果是找最长公共子列,则是ABCE。

还有一种变种的LCS,允许元素重复,这样找到的子列将会是ABCCE,但是这样回溯是比较麻烦的,一般只能得到序··列的长度。

下面我们先介绍基本LCS的算法,然后介绍其变体。

【基本LCS】

1.首先作如下约定

①设字符串a、b的索引从1开始,a的全长为xm,b的全长为yn。

②c[i][j]记录了a串1~i范围和b串1~j范围内的最长子串长度。

2.递推式

要求c[i][j],我们需要考虑a[i]和b[j]的关系。

①a[i]=b[j]:说明当前子列的末尾是a、b所共有,各退一步,就得到了上一次求得的公共子列长度,也就是c[i-1][j-1],显然两个序列仅相差了一个字符,因此c[i][j] = c[i-1][j-1]+1。

②a[i]≠b[j]:说明当前子列的长度在a或者b向后推进一个字符后并未变化,因为这个字符不公共,应该考虑去掉一个字符后的公共子列中较长的,也就是c[i][j] = max{c[i-1][j], c[i][j-1]}。

这样,我们就得到了完整的递推式,下面要解决的就是递推起点的参数。

不难发现,c[0][.]和c[.][0]都应该是0,这就是递推的起点。

3.编程实现

从c[1][1]一直处理到c[xm][yn]即可,需要注意的是字符索引从0开始,因此我们需要在c的索引基础上减一。

代码如下:

void LCS(string a, string b){    int xm = a.length();    int yn = b.length();    vector<vector<int> > c(xm + 1);    for(int x = 0; x <= xm; x++){        c[x].resize(yn + 1);    }    for(int x = 1; x <= xm; x++) c[x][0] = 0;    for(int y = 1; y <= yn; y++) c[0][y] = 0;    for(int x = 1; x <= xm; x++)        for(int y = 1; y <= yn; y++){            if(a[x-1] == b[y-1]){                c[x][y] = c[x-1][y-1] + 1;            }else if(c[x][y-1] >= c[x-1][y]){                c[x][y] = c[x][y-1];            }else{                c[x][y] = c[x-1][y];            }        }    printf("LCS Length:%d\n",c[xm][yn]);}
这样仅仅能得到序列的长度,如果要得到子列,需要回溯,从a和b的最后一个字符开始,根据字符关系查表c来确定是否是子列中的元素。因为这样得到的是倒序,因此需要每次插入到字符串的头部。

    string res = "";    int i = xm, j = yn;    while(i >= 1 && j >= 1){        if(a[i-1] == b[j-1]){            res.insert(res.begin(),a[i-1]);            i--;            j--;        }else if(c[i][j-1] >= c[i-1][j]) j--;        else i--;    }    cout << res << endl;


【变种LCS】

如上文所述,有时候需要考虑元素重复的情况,例如PAT上的一道题1045. Favorite Color Stripe (30)就要求计算元素可重复的最长子列,为了达到这个目的,只需要对算法稍加修改,无论什么情况,均取c[i-1][j]、c[i][j-1]和c[i-1][j-1]中的最大值,并且如果发现a、b当前字串的末尾相同,则在最大值基础上+1,这样就可以重复记录了。

这样做的原因是,原来每次碰到相同的都去找去掉后的+1,这样即使碰到多次重复也不会造成累加,因为我们只考虑了对角线。而如果是在左、对角、上三个方向寻找最大的,则会不断累加。把两个字符串看成一张表,横着为串b,竖着为串a,假设此时比较的是a中的'x',而b中有多个'x',如果是普通LCS,对于每个‘x'都会去找对角线,这样不会造成累加,而变种LCS会找到左边已经累加过的再累加,因此就允许了重复计数。

这样处理的问题在于无法通过回溯得到序列,而只能拿到长度。

void LCS_changed(string a, string b){    int xm = a.length();    int yn = b.length();    vector<vector<int> > c(xm + 1);    for(int x = 0; x <= xm; x++){        c[x].resize(yn + 1);    }    for(int x = 1; x <= xm; x++) c[x][0] = 0;    for(int y = 1; y <= yn; y++) c[0][y] = 0;    for(int x = 1; x <= xm; x++)        for(int y = 1; y <= yn; y++){            int max = c[x-1][y-1];            if(c[x][y-1] > max) max = c[x][y-1];            if(c[x-1][y] > max) max = c[x-1][y];            if(a[x-1] == b[y-1]){                c[x][y] = max + 1;            }else{                c[x][y] = max;            }        }    printf("LCS Length:%d\n",c[xm][yn]);}

0 0
原创粉丝点击