利用编辑距离计算文本相似性

来源:互联网 发布:中控科门禁软件下载 编辑:程序博客网 时间:2024/05/16 00:25

文本相似性

编辑距离

  • 什么是编辑距离?
    看下百度百科的介绍:编辑距离(Edit Distance),又称Levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符插入一个字符删除一个字符。一般来说,编辑距离越小,两个串的相似度越大
    比如说:
    kitten->sitten (k→s)
    sitten->sittin (e→i)
    sittin->sitting (插入g)

找出字符串s1和字符串s2的编辑距离,就是求出字符串s1变成字符串s2的最小操作步骤,主要操作步骤有三种:交换、删除、插入。可以利用动态规划的思想来求解字符转 s1和字符串s2的编辑距离。

动态规划公式如下所示:

distance[i][0]=i,if(i>=0,j==0) distance[0][j]=j,if(i==0,j>=0) distance[i][j]=min(distance[i1][j],distance[i][j1],distance[i1][j1]),if(s1[i]==s2[j]) distance[i][j]=min(distance[i1][j],distance[i][j1],distance[i1][j1]+1),if(s1[i]s2[j])

  • 代码示例
package com.myapp.ml.nlp;import org.apache.commons.lang3.StringUtils;/** * Created by lionel on 16/12/21. */public class EditDistance {    public int editDistance(String A, String B) {        if (StringUtils.isBlank(A + B)) {            return 0;        }        int lengthA = A.length();        int lengthB = B.length();        int[][] distance = new int[lengthA + 1][lengthB + 1];        for (int i = 0; i < lengthA; i++) {            distance[i][0] = i;        }        for (int i = 0; i < lengthB; i++) {            distance[0][i] = i;        }        for (int i = 1; i < lengthA; i++) {            for (int j = 1; j < lengthB; j++) {                int cost = A.charAt(i - 1) == B.charAt(j - 1) ? 0 : 1;                int deletion = distance[i - 1][j] + 1;                int insertion = distance[i][j - 1] + 1;                int exchange = distance[i - 1][j - 1] + cost;                distance[i][j] = Math.min(exchange, Math.min(insertion, deletion));            }        }        return distance[lengthA - 1][lengthB - 1];    }    public static void main(String[] args) {        EditDistance editDistance = new EditDistance();        String str2 = "kitten";        String str1 = "sitting";        System.out.println(editDistance.editDistance(str1, str2));//3    }}
0 0
原创粉丝点击