编辑距离
来源:互联网 发布:notorious b.i.g 知乎 编辑:程序博客网 时间:2024/06/10 14:58
编辑距离(Edit Distance),又称Levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。一般来说,编辑距离越小,两个串的相似度越大。
比如要计算cafe和coffee的编辑距离。cafe→caffe→coffe→coffee
先创建一个6×8的表(cafe长度为4,coffee长度为6,各加2)
(1):
coffee c a f e 表1接着,在如下位置填入数字(表2):
coffee 0123456c1 a2 f3 e4 表2从3,3格开始,开始计算。取以下三个值的最小值:
- 如果最上方的字符等于最左方的字符,则为左上方的数字。否则为左上方的数字+1。(对于3,3来说为0)
- 左方数字+1(对于3,3格来说为2)
- 上方数字+1(对于3,3格来说为2)
因此为格3,3为0(表3)
coffee 0123456c10 a2 f3 e4 循环操作,推出下表
coffee 0123456c1012345a2112345f3221234e4332223取右下角,得编辑距离为3。
C/C++伪代码
动态规划经常被用来作为这个问题的解决手段之一。
整数 Levenshtein距离(字符串 str1[1..m], 字符串 str2[1..n])
//声明变量, d[i , j]用于记录str1[1...i]与str2[1..j]的Levenshtein距离
int d[0..m, 0..n]
//初始化
for i from 0 to m
d[i, 0] := i
for j from 0 to n
d[0, j] := j
//用动态规划方法计算Levenshtein距离
for i from 1 to m
for j from 1 to n
{
//计算替换操作的代价,如果两个字符相同,则替换操作代价为0,否则为1
if str1[i]== str2[j]then cost := 0
else cost := 1
//d[i,j]的Levenshtein距离,可以有
d[i, j] := minimum(
d[i-1, j] + 1//在str1上i位置删除字符str1[i](或者在str2上i位置插入字符str1[i])
d[i, j-1] + 1//在str1上j位置插入字符str2[j][1] (或者在str2上j位置删除字符str2[j])
d[i-1, j-1] + cost // 替换操作
)
}
//返回d[m, n]
return d[m, n]
wikisource上有不同的编程语言的版本。
阅读全文
0 0
- 编辑距离
- 编辑距离
- 编辑距离
- 编辑距离
- 编辑距离
- 编辑距离
- 编辑距离
- 编辑距离
- 编辑距离
- 编辑距离
- 编辑距离
- 编辑距离
- 编辑距离
- 编辑距离
- 编辑距离
- 编辑距离
- 编辑距离
- 编辑距离
- 第十四周项目3-B-树的基本操作
- 第十三周——项目一—验证算法(1)线性表的折半查找
- vs emulator for android流畅的android模拟器
- AAN算法描述及其实现
- 使用navigator.userAgent.toLowerCase()判断客户端类型
- 编辑距离
- 设计模式学习之创建模式之单例模式(三)
- QT普通文本编辑
- 第十周项目一 二叉树构造算法的验证---中序和后序序列构造二叉树(3)
- YII2.0 Activeform表单组件的使用方法
- Bootstrap双列表框
- ubuntu 16.04 安装docker-ce并配置加速器,让docker运行一个桌面系统
- LeetCode--455. Assign Cookies
- 继承、重写知识点汇总---