Jackcard相似度和余弦相似度(向量空间模型)的java实现
来源:互联网 发布:免费微场景制作软件 编辑:程序博客网 时间:2024/05/16 15:32
一、集合的Jackcard相似度
1.1Jackcard相似度
Jaccard相似指数用来度量两个集合之间的相似性,它被定义为两个集合交集的元素个数除以并集的元素个数。
数学公式描述:
这个看似简单的算法有很大的用处,比如:
- 抄袭文档
高明的抄袭者为了掩盖自己抄袭的事实,会选择性的抄袭文档中的一些段落,或者对词语或原始文本中的句序进行改变。jackcard相似度计算适合从字面上进行计算,如果是更高级的抄袭改变了语义jackcard相似度计算就无能为力了 - 镜像页面
多个主机上建立镜像以共享加载内容,同一份内容有多个副本,这种情况实现jackcard相似度计算十分有效。 - 同源新闻稿
一个记者撰写了一份新闻稿件投稿多家媒体,稿件经过少量修改后发布,使用这些同源新闻稿可以用jackcard相似度算法来检测出来
1.2 Java实现
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
- 14
- 15
- 16
- 17
- 18
- 19
- 20
- 21
- 22
- 23
- 24
- 25
- 26
- 27
- 28
- 29
- 30
- 31
- 32
- 33
- 34
- 35
- 36
- 37
- 38
- 39
- 40
- 41
- 42
- 43
- 44
- 45
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
- 14
- 15
- 16
- 17
- 18
- 19
- 20
- 21
- 22
- 23
- 24
- 25
- 26
- 27
- 28
- 29
- 30
- 31
- 32
- 33
- 34
- 35
- 36
- 37
- 38
- 39
- 40
- 41
- 42
- 43
- 44
- 45
运行结果
- 1
- 2
- 3
- 1
- 2
- 3
二、向量空间模型
2.1简介
向量空间模型是一个把文本文件表示为标识符(比如索引)向量的代数模型。它应用于信息过滤、信息检索、索引以及相关排序。
文档和查询都用向量来表示。
2.2、java实现
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
- 14
- 15
- 16
- 17
- 18
- 19
- 20
- 21
- 22
- 23
- 24
- 25
- 26
- 27
- 28
- 29
- 30
- 31
- 32
- 33
- 34
- 35
- 36
- 37
- 38
- 39
- 40
- 41
- 42
- 43
- 44
- 45
- 46
- 47
- 48
- 49
- 50
- 51
- 52
- 53
- 54
- 55
- 56
- 57
- 58
- 59
- 60
- 61
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
- 14
- 15
- 16
- 17
- 18
- 19
- 20
- 21
- 22
- 23
- 24
- 25
- 26
- 27
- 28
- 29
- 30
- 31
- 32
- 33
- 34
- 35
- 36
- 37
- 38
- 39
- 40
- 41
- 42
- 43
- 44
- 45
- 46
- 47
- 48
- 49
- 50
- 51
- 52
- 53
- 54
- 55
- 56
- 57
- 58
- 59
- 60
- 61
运行结果:
- 1
- 2
- 3
- 4
- 5
- 1
- 2
- 3
- 4
- 5
三、参考资料
https://zh.wikipedia.org/wiki/%E5%90%91%E9%87%8F%E7%A9%BA%E9%96%93%E6%A8%A1%E5%9E%8B
http://baike.baidu.com/link?url=enqtEW1bEXe0iZvil1MBk8m2upnfmN118p4cgjNpYdoJYe2l-FC5_s_yYQAq_3GUtiQW0jgwfMMBBxM0U16JiRKeFToPQ0fj058H7P8mHlZ5RV7rERN9Je7jdrYdA3gI7SRMUNTD
0 0
- Jackcard相似度和余弦相似度(向量空间模型)的java实现
- Jackcard相似度和余弦相似度(向量空间模型)的java实现
- 向量空间模型(VSM)的余弦定理公式(用余弦定理来表示向量之间的相似度)
- Java实现-余弦相似度
- 向量空间模型文档相似度计算实现(C#)
- 文本相似度的计算-向量空间模型
- 文本相似度的计算-向量空间模型
- 余弦相似度-java代码实现
- java 余弦相似度计算简易实现
- c++实现矩阵的余弦相似度
- 余弦相似性获取文章相似度的java实现
- hsv和余弦相似度的局限
- tf-idf权值的向量表示、余弦相似度
- 计算两向量的欧式距离,余弦相似度
- 基于向量余弦的文件相似度计算
- 计算两向量的欧式距离,余弦相似度
- 余弦相似度-Java代码
- 向量空间模型(VSM)一种文本相似度算法
- C/C++高质量编程之常量
- linux下mysql的简单应用
- POJ 1185 状压DP
- stm32F10x 看程序知识点记录
- @RequestBody, @ResponseBody 注解详解
- Jackcard相似度和余弦相似度(向量空间模型)的java实现
- HDU 2000
- oracle中右表有过滤条件的left outer join
- 递推递归练习 M
- HTMl基本知识点——列表
- c++ --------- 多态下的菱形继承,菱形虚拟继承
- 下沉的船
- onSaveInstanceState 和onRestoreInstanceState的使用方法
- nodejs中交互式运行环境---REPL