字符串编辑距离

来源:互联网 发布:相机透视软件下载 编辑:程序博客网 时间:2024/05/21 02:51

2个字符串,把s1转换到s2最少操作,并且把这个操作过程输出。

操作包括3种:删除一个字符,增加一个字符,改变一个字符,操作仅对s1执行,使其等于s2.

算法思想:

动态规划

b[i][j]表示s1[1..i]和s2[1..j]之间最短编辑距离。

显然初始

b[0][j]=j;b[i][0]=i;因为s1为空,则需要增加j个字符,s2为空,则需要删除i个字符。

递归公式:

b[i][j]=min(b[i-1]][j]+1,b[i][j-1]+1,b[i-1][j-1]+(s1[i]==s2[j]?0:1));

假设是从s1[1..i]到s2[1..j]操作步骤

根据b[i-1]][j]+1,b[i][j-1]+1,b[i][j]+(s1[i]==s2[i]?0:1) 这几个值的大小选择操作。

如果b[i-1]][j]+1最小,说明是从s1[1..i]最后一个字符删除。

如果b[i][j-1]+1最小,说明是向s1[1..i]最后增加一个字符。

如果b[i-1][j-1]+(s1[i]==s2[i]?0:1),说明是改变一个s1[1..i]的最后一个字符和s2[1..j]相同,如果已经相同,则不需要操作。

#include <stdio.h>#include <string.h>int find_distance(char a[], char b[], int len_a, int len_b){if(a==NULL || b==NULL || len_a<=0 || len_b<=0)return 0;int i,j;int **edge = new int*[len_a+1];//edge[i][j]记录a[0...i-1]和b[0...j-1]字符串的最小编辑距离for(i=0;i<len_a+1;i++)edge[i] =  new int[len_b+1];for(i=0;i<len_a+1;i++)//初始化第一列,edge[i][0]相当于是a[0...i-1]删除i个元素得到,所以edge[i][0]=iedge[i][0] = i;for(i=0;i<len_b+1;i++)//初始化第一行,edge[0][i]相当于需要增加i个元素才能得到b[0...i-1],所以edge[0][i]=iedge[0][i] = i;for(i=1;i<len_a+1;i++){for(j=1;j<len_b+1;j++){int temp;if(a[i-1]==b[j-1])//注意这里是i-1temp=0;//为0,说明a[i-1]不需要改变成b[j-1]elsetemp=1;//为1,说明a[i-1]需要改变成b[j-1],编辑距离加1int a = edge[i-1][j]+1;//说明字符串a需要删除a[i-1],编辑距离加1int b = edge[i][j-1]+1;//说明字符串a需要在最后添加b[j-1],编辑距离加1int c = edge[i-1][j-1]+temp;//说明字符串a在a[j-1]处是否替换成b[j-1],temp为0不替换,temp为1替换且编辑距离加1int max = a<b?a:b;max = max<c?max:c;edge[i][j] = max;//三者中的最小值作为edge[i][j],即a[0...i-1]和b[0...j-1]的最小编辑距离}}return edge[len_a][len_b];//矩阵最后一个值是两个字符串的最终编辑距离}int main(){char a[20],b[20];printf("请输入第一个字符串:");scanf("%s",a);printf("请输入第二个字符串:");scanf("%s",b);int len_a = strlen(a);int len_b = strlen(b);int max_len = len_a > len_b ? len_a : len_b;int distance = find_distance(a,b,len_a,len_b);float rate = 1 - (float)distance/(float)max_len;//max_len是两个字符串长度中长的那个printf("字符串编辑距离为:%d\n",distance);printf("字符串相似度为:%f%%\n",rate*100);//打印百分数需要%%,连续两个%能够打印出%return 0;}


参考:http://hi.baidu.com/huifeng00/item/e5b30328465b43f150fd8791