根据simhash找出集合中相似文档的算法
来源:互联网 发布:js 获取td的内容 编辑:程序博客网 时间:2024/06/05 09:33
google的simhash算法可以用来衡量原始文档的相似程度。如何判断呢?很简单,就是求2个文档的simhash的距离(即二进制数字中不相同的位的个数)。
本文不想阐述simhash如何产生、如何计算距离,而是要解决从大量文档中找出相似的文档的问题(我们认为距离为1或2时,两文档相似,为0即相等不考虑)。最笨的方法当然是两两比较了,但是当集合中文档数量很大时,两两比较将会很不现实。那该怎么办呢?我的同事ruan给出了一个算法(这个算法也许来自某本书,这里暂且不管)。
算法很简单,当距离小于3时,我们认为文档A和文档B相似,所以我们将所有simhash数值按位均分成3段,即:
A=A1 A2 A3,B=B1 B2 B3,。。。,
如果A和B相似,必然存在某一个段是相等的,也就是说A和B相似,要么A1=B1,要么A2=B2,要么A3=B3,否则A和B不相似。
所以我们按段分组,同一组内的数据再做两两比较,大大减少了比较次数,提高了效率。第一个段分组计算完后再按第二个段、第三个段分组做同样操作。
如果距离小于7时,认为是相似的,就将simhash分成7段,计算方法相同。
- 根据simhash找出集合中相似文档的算法
- 文档相似度算法 Simhash
- 相似文档查找算法之 simHash
- 相似文档查找算法之 simHash 简介及其 java 实现
- 相似文档查找算法之 simHash 简介及其 java 实现
- Simhash相似哈希算法
- Simhash相似哈希算法
- 文本相似度simhash算法-简单说
- Scrapy-redis增量爬取以及Simhash相似文档的去重
- simhash算法的原理
- simhash算法的原理
- simhash算法的原理
- simhash算法的原理
- simhash算法的原理
- simhash算法的原理
- simhash算法的原理
- simhash算法的原理
- 感知哈希算法——找出相似的图片
- 数据库连接池(JSP)
- 十四、第三章再续:快速选择SELECT算法的深入分析与实现
- Spring框架总结
- JSP页面显示时出现乱码解决办法
- 在MAC系统上安装Tomcat
- 根据simhash找出集合中相似文档的算法
- Java程序学后小练习
- PHP开发-HTML中使用Jquery实现多行数据的省略号效果(效果图)
- Android事件分发机制
- Arduino烧写超时错误:arduino avrdude: stk500v2_ReceiveMessage(): timeout
- 耶稣 13门徒问题
- 后缀数组
- JDBC总结
- 简单页面跳转,第二次会多一个上层目录路径