编辑距离
来源:互联网 发布:y系列6及电机数据大全 编辑:程序博客网 时间:2024/06/06 09:04
编辑距离可以被用于计算文本的相似性以及用于文本纠错,简单的理解就是将一个字符串转换到另一个字符串所需要的代价(cost),付出的代价越少表示两个字符串越相似,编辑距离越小,从一个字符串转换到另一个字符串简单的归纳可以有以下几种操作,1、删除(delete)2、插入(insert)3、修改(update),其中删除和插入的代价可以认为是等价的。
两个符号串的模式A和B之间的编辑距离表示为D(A,B),D(A,B)定义为由模式A向模式B转换的过程中需要改变的符号的个数C、插入的符号个数I和删除的符号个数R的总和的最小值
D(A,B)=MIN[C(j)+I(j)+R(j)]
其中j包含有A到B所有符号改变的可能组合,有多种方式可以实现一位的转换。我们再利用动态规划方法来计算上式中的最小值,利用DP(dynamic programming)来计算最优路径的第一步是根据具体问题规定节点转移约束。每个节点(i.j)可以通过三个前序节点到达,即:(i-1,j),(i-1,j-1),(i,j-1)与三个前序节点相关的代价是
对角线转移:
d(i,j|(i-1,j-1)=0当r(i)=t(j)或者=1当r(i)!=t(j)
也就是说,如果对应于节点(i,j)的符号相同,则转移代价为0,如果不同,则为1。
水平和垂直转移:
d(i,j|(i-1,j-1)=d(i.j|i,j-1)=1
水平转移的意思是通过在符号串中插入符号,使两个模式对齐。垂直转移也增加代价,因为符号需要删除。
计算编辑距离的算法:
D(0,0)=0
for i=1to I
--D(i,0)=D(i-1,0)+1
end{for}
for j=1to J
--D(0,j)=D(0,j-1)+1;
end{for}
for i=1to I
--for(j=1 to J)
*c1= D(i-1,j-1)+d(i,j|i-1,j-1)
*c2=D(i-1,j)+1
*c3=D(i,j-1)+1
*D(i,j)=min(ca,c2,c3)
--end{for}
end{for}
D(A.B)=D(I,J)
- 编辑距离
- 编辑距离
- 编辑距离
- 编辑距离
- 编辑距离
- 编辑距离
- 编辑距离
- 编辑距离
- 编辑距离
- 编辑距离
- 编辑距离
- 编辑距离
- 编辑距离
- 编辑距离
- 编辑距离
- 编辑距离
- 编辑距离
- 编辑距离
- Java 文件或者文件夹的删除
- 面试题初级-求字符串最后一个单词的长度和判断ip地址的合法性
- 儿童识字量测试3090字(倪铂颖)
- 数学_证明
- 中国天气网免费天气预报接口API
- 编辑距离
- git
- Araxis Merge 中文乱码 问题 解决
- 搭建缓存集群-技术选型
- 产生n个字母
- Jetty 的工作原理以及与 Tomcat 的比较
- 简单的python爬虫两则
- python 记录
- weblogic 8.0在myeclipse8.5的部分配置