字符串的编辑距离和编辑距离算法

来源:互联网 发布:平价乳液知乎 编辑:程序博客网 时间:2024/05/01 15:20

参考博文
http://www.cnblogs.com/sking7/archive/2011/10/16/2214044.html
http://www.cnblogs.com/biyeymyhjob/archive/2012/09/28/2707343.html

编辑距离,又称Levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。

例如将kitten一字转成sitting:

sitten (k→s)
sittin (e→i)
sitting (→g)

首先定义这样一个函数——edit(i, j),它表示第一个字符串的长度为i的子串到第二个字符串的长度为j的子串的编辑距离。

显然可以有如下动态规划公式:

  • if i == 0 且 j == 0,edit(i, j) = 0
  • if i == 0 且 j > 0,edit(i, j) = j
  • if i > 0 且j == 0,edit(i, j) = i
  • if i ≥ 1 且 j ≥ 1 ,edit(i, j) == min{ edit(i-1, j) + 1, edit(i, j-1) + 1, edit(i-1, j-1) + f(i, j) },当第一个字符串的第i个字符不等于第二个字符串的第j个字符时,f(i, j) = 1;否则,f(i, j) = 0。
i/j 0 f a i l i n g 0 0 1 2 3 4 5 6 7 s 1 1 2 3 4 5 6 7 a 2 2 1 2 3 4 5 6 i 3 3 2 1 2 3 4 5 l 4 4 3 2 1 2 3 4 n 5 5 4 3 2 2 2 3
0 0
原创粉丝点击