编辑距离

来源:互联网 发布:js中的event对象 编辑:程序博客网 时间:2024/05/01 22:04

问题:

给定两个字符串 A和B,由A转成B所需的最少编辑操作次数。允许的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。
例如将A(kitten)转成B(sitting):
sitten (k→s)替换
sittin (e→i)替换
sitting (→g)插入

思路:

如果我们用 i 表示当前字符串 A 的下标,j 表示当前字符串 B 的下标。 如果我们用d[i, j] 来表示A[1, ... , i] B[1, ... , j] 之间的最少编辑操作数。那么我们会有以下发现:

1. d[0, j] = j;

2. d[i, 0] = i;

3. d[i, j] = d[i-1, j - 1] if A[i] == B[j]

4. d[i, j] = min(d[i-1, j - 1], d[i, j - 1], d[i-1, j]) + 1  if A[i] != B[j]

所以,要找出最小编辑操作数,只需要从底自上判断就可以了。伪代码如下:

[java] view plaincopy
  1. int LevenshteinDistance(char s[1..m], char t[1..n])  
  2. {  
  3.   // for all i and j, d[i,j] will hold the Levenshtein distance between  
  4.   // the first i characters of s and the first j characters of t;  
  5.   // note that d has (m+1)x(n+1) values  
  6.   declare int d[0..m, 0..n]  
  7.   
  8.   for i from 0 to m  
  9.     d[i, 0] := i // the distance of any first string to an empty second string  
  10.   for j from 0 to n  
  11.     d[0, j] := j // the distance of any second string to an empty first string  
  12.   
  13.   for j from 1 to n  
  14.   {  
  15.     for i from 1 to m  
  16.     {  
  17.       if s[i] = t[j] then    
  18.         d[i, j] := d[i-1, j-1]       // no operation required  
  19.       else  
  20.         d[i, j] := minimum  
  21.                    (  
  22.                      d[i-1, j] + 1,  // a deletion  
  23.                      d[i, j-1] + 1,  // an insertion  
  24.                      d[i-1, j-1] + 1 // a substitution  
  25.                    )  
  26.     }  
  27.   }  
  28.   
  29.   return d[m,n]