LeetCode(72)Edit Distance

来源:互联网 发布:淘宝商家电话怎么查 编辑:程序博客网 时间:2024/05/29 11:53

题目

Given two words word1 and word2, find the minimum number of steps required to convert word1 to word2. (each operation is counted as 1 step.)
You have the following 3 operations permitted on a word:
a) Insert a character
b) Delete a character
c) Replace a character

本题是典型的适合使用动态规划的题目。在斯坦福的公开课(中文,英文)上,有对这个问题的详细说明,所以接下来就继续使用斯坦福公开课的例子了。

如果要计算单词"INTENTION"和单词"EXECUTION"之间的编辑距离,那么该怎么计算呢?

首先,把这个问题简单化。把上面两个单词简化为长度为1的两个单词I和E。

如果要“I”变化为"E",可以把"I"替换为"E"
如果要“I”变化为空串" ",可以把"I"删除,从而形成""
如果要空串“ ”变化为"E",可以把"E"插入,从而形成E

上面三种变化分别表示替换,删除,插入这三种基本操作。

接下来,定义一个表达式D(i,j)。它表示从第1个字单词的第0位至第i位形成的子串和第2个单词的第0位至第j位形成的子串的编辑距离。

显然,可以计算出动态规划的初始表达式,如下:

D(i,0) = i

D(0,j) = j

然后,考虑动态规划的状态转移方程式,如下:

                                   D(i-1, j) + 1
D(i,j)=min                  ( D(i, j-1) + 1 )
                                   D(i-1, j-1) +2( if  X(i) != Y(j) ) ; D(i-1,j-1) ( if  X(i) == Y(j) )

上面的状态转移方程的含义是,D(i,j)的值,要么是D(i-1, j)的操作完成之后删除一个字符(第1个单词的第i个字符),要么是D(i, j-1)的操作完成之后增加一个字符(第2个单词的第j个字符),要么是D(i-1, j-1)的操作完成自后替换一个字符(如果第1个单词的第i个字符和第2个单词的第j个字符不等),或者是D(i-1, j-1)的操作完成自后什么也不做(如果第1个单词的第i个字符和第2个单词的第j个字符相等)。其中,课件定义删除,插入,替换的操作步数分别为一步,一步,两步。

以第一个单词"INTENTION"和第二个单词"EXECUTION"为例,看下面的图




接下来,代码实现。注意在leetcode中,把插入,删除,替换全部视为一步操作。

//new二维数组版本class Solution {public:    int minDistance(string word1, string word2) {        int len1=(int)word1.length()+1;        int len2=(int)word2.length()+1;        int** p=new int*[len1];        if(!p){            return 0;        }        for(int i=0;i<len1;i++){            p[i]=new int[len2];            if(!p[i]){                return 0;            }        }        for(int i=0;i<len1;i++){            p[i][0]=i;        }        for(int j=0;j<len2;j++){            p[0][j]=j;        }        for(int i=1;i<len1;i++){            for(int j=1;j<len2;j++){                int tmp_step;                if( word1[i-1]==word2[j-1])//注意这里下标容易写错。一开始写成了if(word[i]==word2[j])                    tmp_step=0+p[i-1][j-1];                else                    tmp_step=1+p[i-1][j-1];                int tmp_step2=min((p[i-1][j]+1),(p[i][j-1]+1));                p[i][j]=min(tmp_step2,tmp_step);            }        }                return p[len1-1][len2-1];    }};

这个版本使用动态分配的二维数组,100ms通过测试。之前提交了一个版本,使用vector<vector<int>>来替代二维数组,编码简单一些,但是时间是220ms,说明STL确实会额外消耗一些时间。

//vector版本class Solution {public:    int minDistance(string word1, string word2) {        int len1=(int)word1.length()+1;        int len2=(int)word2.length()+1;        vector<vector<int>> dis_matrix;        vector<int> tmp_vec;        for(int j=0;j<len2;j++)            tmp_vec.push_back(0);        for(int i=0;i<len1;i++)            dis_matrix.push_back(tmp_vec);                for(int i=0;i<len1;i++)            dis_matrix[i][0]=i;        for(int j=0;j<len2;j++)            dis_matrix[0][j]=j;                for(int i=1;i<len1;i++){            for(int j=1;j<len2;j++){                int tmp_step;                if( word1[i-1]==word2[j-1])//注意这里下标容易写错。一开始写成了if(word[i]==word2[j])                    tmp_step=0+dis_matrix[i-1][j-1];                else                    tmp_step=1+dis_matrix[i-1][j-1];                int tmp_step2=min((dis_matrix[i-1][j]+1),(dis_matrix[i][j-1]+1));                dis_matrix[i][j]=min(tmp_step2,tmp_step);            }        }        return dis_matrix[len1-1][len2-1];    }};

update: 2014-12-20

class Solution {public:    int minDistance(string word1, string word2) {    vector<vector<int> > dp(word1.length() + 1, vector<int> (word2.length() + 1, 0));    for (int i = 1; i <= word1.length(); ++i)        dp[i][0] = i;    for (int i = 1; i <= word2.length(); ++i)        dp[0][i] = i;    for (int i = 1; i <= word1.length(); ++i) {        for (int j = 1; j <= word2.length(); ++j) {                int replace_step = 0;                if (word1[i - 1] == word2[j - 1])                    replace_step = dp[i - 1][j - 1];                else                    replace_step = dp[i - 1][j - 1] + 1;                replace_step = min(replace_step, dp[i - 1][j] + 1);                dp[i][j] = min(replace_step, dp[i][j - 1] + 1);        }    }    return dp[word1.length()][word2.length()];    }};


参考资料

1 斯坦福大学自然语言处理第三课“最小编辑距离(Minimum Edit Distance)

2 Stanford Natural Language Processing 


扩展小结:

1. edit distance 和 interleaving string这两道题目的共性是都用到了2D的 DP,都在处理String


1 0
原创粉丝点击