编辑距离

来源：互联网发布：y系列6及电机数据大全编辑：程序博客网时间：2024/06/06 09:04

编辑距离可以被用于计算文本的相似性以及用于文本纠错，简单的理解就是将一个字符串转换到另一个字符串所需要的代价（cost），付出的代价越少表示两个字符串越相似，编辑距离越小，从一个字符串转换到另一个字符串简单的归纳可以有以下几种操作，1、删除（delete）2、插入（insert）3、修改（update），其中删除和插入的代价可以认为是等价的。

两个符号串的模式A和B之间的编辑距离表示为D(A,B),D(A,B)定义为由模式A向模式B转换的过程中需要改变的符号的个数C、插入的符号个数I和删除的符号个数R的总和的最小值

D(A,B)=MIN[C(j)+I(j)+R(j)]

其中j包含有A到B所有符号改变的可能组合，有多种方式可以实现一位的转换。我们再利用动态规划方法来计算上式中的最小值，利用DP(dynamic programming)来计算最优路径的第一步是根据具体问题规定节点转移约束。每个节点(i.j)可以通过三个前序节点到达，即：(i-1,j),(i-1,j-1),(i,j-1)与三个前序节点相关的代价是

对角线转移：

d(i,j|(i-1,j-1)=0当r(i)=t(j)或者=1当r(i)!=t(j)

也就是说，如果对应于节点(i,j)的符号相同，则转移代价为0，如果不同，则为1。

水平和垂直转移：

d(i,j|(i-1,j-1)=d(i.j|i,j-1)=1

水平转移的意思是通过在符号串中插入符号，使两个模式对齐。垂直转移也增加代价，因为符号需要删除。

计算编辑距离的算法：

D(0,0)=0

for i=1to I

--D(i,0)=D(i-1,0)+1

end{for}

for j=1to J

--D(0,j)=D(0,j-1)+1;

end{for}

for i=1to I

--for(j=1 to J)

*c1= D(i-1,j-1)+d(i,j|i-1,j-1)

*c2=D(i-1,j)+1

*c3=D(i,j-1)+1

*D(i,j)=min(ca,c2,c3)

--end{for}

end{for}

D(A.B)=D(I,J)

0 0