编辑距离问题(1)

来源:互联网 发布:市场部数据分析 编辑:程序博客网 时间:2024/05/22 01:08

编辑距离问题:

编辑距离,又称Levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。

例如将kitten一字转成sitting:

  1. sitten (k→s)
  2. sittin (e→i)
  3. sitting (→g)

俄罗斯科学家Vladimir Levenshtein在1965年提出这个概念。

【以上转自Weki百科】

《算法导论》(p218)上对这个问题的描述更为详细。此处对概念不做过多说明,这是一个典型的动态规划问题,用一句话来描述最优解就是求将源字符串src转换为目的字符串tar,所需要进行的最小操作数。

为此递归表达式如下:

dp[i][j]表示由字串s1[1..i]转换为字串s2[1,,j]的最小操作数,显然:

dp[0][j]=j*cost(delete);

dp[i][0]=i*cost(insert);

dp[i][j]=min{ dp[i-1][j-1]+cost(copy) if src[i]=tar[j] or dp[i-1][j-1]+cost(replace) if src[i]!=tar[j]   

                     or dp[i-1][j]+cost(delete),

                     or dp[i][j-1]+cost(insert)}

代码如下:

#include <iostream>#include <vector>#include <string>using namespace std;const int costCopy=0;const int costReplace=1;const int costDelete=1;const int costInsert=1;int levenshteinDistance(const string &s1,const string &s2){  int len1=s1.size();  int len2=s2.size();  if(!len1) return len2;  if(!len2) return len1;    vector <vector <int> > dp(len1+1,vector <int>(len2+1,0));  //initialize dp  for(int i=1;i<len1+1;i++){    dp[i][0]=dp[i-1][0]+costDelete;  }  for(int j=1;j<len2+1;j++){    dp[0][j]=dp[0][j-1]+costInsert;  }  //dp  for(int i=1;i<=len1;i++){    for(int j=1;j<=len2;j++){      int minDis=0;      if(s1[i-1]==s2[j-1]){        minDis=dp[i-1][j-1]+costCopy;      }      else{        minDis=dp[i-1][j-1]+costReplace;      }      int tempDis=dp[i-1][j]+costDelete;      if(minDis>tempDis){        minDis=tempDis;      }      tempDis=dp[i][j-1]+costInsert;      if(minDis>tempDis){        minDis=tempDis;      }      dp[i][j]=minDis;    }  }  cout<<"***************************"<<endl;  for(int i=0;i<=len1;i++){    for(int j=0;j<=len2;j++){      cout<<dp[i][j]<<" ";    }    cout<<endl;  }  cout<<"**************************"<<endl;  return dp[len1][len2];}int main(){  string s1("sailn");  string s2("failing");  cout<<"编辑距离:"<<levenshteinDistance(s1,s2);  return 0;}

需要说明的一点是,我在程序中将copy,replace,insert以及delete操作的代价都设为特定的常数,并采用常量形式表示,程序运行结果如下:


0 0
原创粉丝点击