编辑距离

来源:互联网 发布:y系列6及电机数据大全 编辑:程序博客网 时间:2024/06/06 09:04

编辑距离可以被用于计算文本的相似性以及用于文本纠错,简单的理解就是将一个字符串转换到另一个字符串所需要的代价(cost),付出的代价越少表示两个字符串越相似,编辑距离越小,从一个字符串转换到另一个字符串简单的归纳可以有以下几种操作,1、删除(delete)2、插入(insert)3、修改(update),其中删除和插入的代价可以认为是等价的。

  两个符号串的模式A和B之间的编辑距离表示为D(A,B),D(A,B)定义为由模式A向模式B转换的过程中需要改变的符号的个数C、插入的符号个数I和删除的符号个数R的总和的最小值

    D(A,B)=MIN[C(j)+I(j)+R(j)]

其中j包含有A到B所有符号改变的可能组合,有多种方式可以实现一位的转换。我们再利用动态规划方法来计算上式中的最小值,利用DP(dynamic programming)来计算最优路径的第一步是根据具体问题规定节点转移约束。每个节点(i.j)可以通过三个前序节点到达,即:(i-1,j),(i-1,j-1),(i,j-1)与三个前序节点相关的代价是

对角线转移:

d(i,j|(i-1,j-1)=0当r(i)=t(j)或者=1当r(i)!=t(j)

也就是说,如果对应于节点(i,j)的符号相同,则转移代价为0,如果不同,则为1。

水平和垂直转移:

d(i,j|(i-1,j-1)=d(i.j|i,j-1)=1

水平转移的意思是通过在符号串中插入符号,使两个模式对齐。垂直转移也增加代价,因为符号需要删除。

计算编辑距离的算法:

D(0,0)=0

for i=1to I

--D(i,0)=D(i-1,0)+1

end{for}

for j=1to J

--D(0,j)=D(0,j-1)+1;

end{for}

for i=1to I

--for(j=1 to J)

*c1= D(i-1,j-1)+d(i,j|i-1,j-1)

*c2=D(i-1,j)+1

*c3=D(i,j-1)+1

*D(i,j)=min(ca,c2,c3)

--end{for}

end{for}

D(A.B)=D(I,J)

   



0 0
原创粉丝点击