编辑距离 - 科普 & 记录

来源:互联网 发布:seo诊断分析报告 编辑:程序博客网 时间:2024/05/16 18:05

这个概念好神奇啊,具体的还是看百度百科的介绍吧。

定义:编辑距离(Edit Distance),又称Levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。一般来说,编辑距离越小,两个串的相似度越大。


算法:

自然语言表达

比如要计算cafe和coffee的编辑距离。cafe→caffe→coffe→coffee
先创建一个6×8的表(cafe长度为4,coffee长度为6,各加2)
(1):
  coffee        c       a       f       e     表1
接着,在如下位置填入数字(表2):
  coffee 0123456c1      a2      f3      e4    表2
从3,3格开始,开始计算。取以下三个值的最小值:
  • 如果最上方的字符等于最左方的字符,则为左上方的数字。否则为左上方的数字+1。(对于3,3来说为0)
  • 左方数字+1(对于3,3格来说为2)
  • 上方数字+1(对于3,3格来说为2)
因此为格3,3为0(表3)
  coffee 0123456c1
  0     a2      f3      e4    表3
循环操作,推出下表
  coffee 0123456c1012345a2112345f3221234e4332223
取右下角,得编辑距离为3

ok,看懂了算法后我们看代码,用dp的思想去写:

#include <stdio.h>#include <cstring>#include <algorithm>using namespace std;#define CLR(a,b) memset(a,b,sizeof(a))#define INF 0x3f3f3f3f#define LL long longchar s1[1011];char s2[1011];int ans[1011][1011];//结果矩阵 int main(){scanf ("%s%s",s1+1,s2+1);int l1,l2;s1[0] = s2[0] = '@';l1 = strlen(s1) - 1;l2 = strlen(s2) - 1;for (int i = 0 ; i <= max(l1,l2) ; i++)//初始化矩阵 ans[0][i] = ans[i][0] = i;for (int i = 1 ; i <= l1 ; i++){for (int j = 1 ; j <= l2 ; j++){//下面三者取最小值 if (s1[i] != s2[j])//如果这个点对应两字符相等,那么取左上方数字,否则取左上方数字加一 ans[i][j] = ans[i-1][j-1] + 1;elseans[i][j] = ans[i-1][j-1];ans[i][j] = min(ans[i][j] , min(ans[i-1][j] + 1 , ans[i][j-1] + 1));//然后再与左方数字+1、上方数字+1取最小值 }}printf ("%d\n",ans[l1][l2]);//右下角的数字即为结果(编辑距离) return 0;}


0 0
原创粉丝点击