Jackcard相似度和余弦相似度(向量空间模型)的java实现

来源:互联网 发布:免费微场景制作软件 编辑:程序博客网 时间:2024/05/16 15:32

一、集合的Jackcard相似度

1.1Jackcard相似度

Jaccard相似指数用来度量两个集合之间的相似性,它被定义为两个集合交集的元素个数除以并集的元素个数。

数学公式描述:

J(A,B)=|AB||AB|

这个看似简单的算法有很大的用处,比如:

  1. 抄袭文档 
    高明的抄袭者为了掩盖自己抄袭的事实,会选择性的抄袭文档中的一些段落,或者对词语或原始文本中的句序进行改变。jackcard相似度计算适合从字面上进行计算,如果是更高级的抄袭改变了语义jackcard相似度计算就无能为力了
  2. 镜像页面 
    多个主机上建立镜像以共享加载内容,同一份内容有多个副本,这种情况实现jackcard相似度计算十分有效。
  3. 同源新闻稿 
    一个记者撰写了一份新闻稿件投稿多家媒体,稿件经过少量修改后发布,使用这些同源新闻稿可以用jackcard相似度算法来检测出来

1.2 Java实现

import java.util.HashSet;import java.util.Map;import java.util.Set;/** * Created by bee on 17/4/12. */public class JackcardSim {    public static double calJackcardSim(Set<String> s1, Set<String> s2) {        Set<String> all = new HashSet<>();        all.addAll(s1);        all.addAll(s2);        System.out.println(all);        Set<String> both = new HashSet<>();        both.addAll(s1);        both.retainAll(s2);        System.out.println(both);        return (double) both.size() / all.size();    }    public static void main(String[] args) {        Set<String> s1 = new HashSet<String>();        s1.add("互联网");        s1.add("金融");        s1.add("房产");        s1.add("融资");        s1.add("科技");        Set<String> s2 = new HashSet<String>();        s2.add("互联网");        s2.add("开源");        s2.add("人工智能");        s2.add("软件");        s2.add("科技");        System.out.println(calJackcardSim(s1, s2));    }}
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40
  • 41
  • 42
  • 43
  • 44
  • 45
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40
  • 41
  • 42
  • 43
  • 44
  • 45

运行结果

[科技, 房产, 软件, 融资, 人工智能, 互联网, 开源, 金融][科技, 互联网]0.25
  • 1
  • 2
  • 3
  • 1
  • 2
  • 3

二、向量空间模型

2.1简介

向量空间模型是一个把文本文件表示为标识符(比如索引)向量的代数模型。它应用于信息过滤、信息检索、索引以及相关排序。

文档和查询都用向量来表示。

dj=(w1,j,w2,j,...,wt,j)q=(w1,q,w2,q,...,wt,q)

cosθ=d2qd2q=i=1Nwi,jwi,qi=1Nw2i,ji=1Nw2i,q

2.2、java实现

import java.util.HashMap;import java.util.HashSet;import java.util.Map;import java.util.Set;/** * Created by bee on 17/4/10. */public class Vsm {    public static double calCosSim(Map<String, Double> v1, Map<String, Double>            v2) {        double sclar = 0.0,norm1=0.0,norm2=0.0,similarity=0.0;        Set<String> v1Keys = v1.keySet();        Set<String> v2Keys = v2.keySet();        Set<String> both= new HashSet<>();        both.addAll(v1Keys);        both.retainAll(v2Keys);        System.out.println(both);        for (String str1 : both) {            sclar += v1.get(str1) * v2.get(str1);        }        for (String str1:v1.keySet()){            norm1+=Math.pow(v1.get(str1),2);        }        for (String str2:v2.keySet()){            norm2+=Math.pow(v2.get(str2),2);        }        similarity=sclar/Math.sqrt(norm1*norm2);        System.out.println("sclar:"+sclar);        System.out.println("norm1:"+norm1);        System.out.println("norm2:"+norm2);        System.out.println("similarity:"+similarity);        return similarity;    }    public static void main(String[] args) {        Map<String, Double> m1 = new HashMap<>();        m1.put("Hello", 1.0);        m1.put("css", 2.0);        m1.put("Lucene", 3.0);        Map<String, Double> m2 = new HashMap<>();        m2.put("Hello", 1.0);        m2.put("Word", 2.0);        m2.put("Hadoop", 3.0);        m2.put("java", 4.0);        m2.put("html", 1.0);        m2.put("css", 2.0);        calCosSim(m1, m2);    }}
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40
  • 41
  • 42
  • 43
  • 44
  • 45
  • 46
  • 47
  • 48
  • 49
  • 50
  • 51
  • 52
  • 53
  • 54
  • 55
  • 56
  • 57
  • 58
  • 59
  • 60
  • 61
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40
  • 41
  • 42
  • 43
  • 44
  • 45
  • 46
  • 47
  • 48
  • 49
  • 50
  • 51
  • 52
  • 53
  • 54
  • 55
  • 56
  • 57
  • 58
  • 59
  • 60
  • 61

运行结果:

[css, Hello]sclar:5.0norm1:14.0norm2:35.0similarity:0.22587697572631282
  • 1
  • 2
  • 3
  • 4
  • 5
  • 1
  • 2
  • 3
  • 4
  • 5

三、参考资料

https://zh.wikipedia.org/wiki/%E5%90%91%E9%87%8F%E7%A9%BA%E9%96%93%E6%A8%A1%E5%9E%8B
http://baike.baidu.com/link?url=enqtEW1bEXe0iZvil1MBk8m2upnfmN118p4cgjNpYdoJYe2l-FC5_s_yYQAq_3GUtiQW0jgwfMMBBxM0U16JiRKeFToPQ0fj058H7P8mHlZ5RV7rERN9Je7jdrYdA3gI7SRMUNTD

0 0
原创粉丝点击