抽屉原理与Simhash
来源:互联网 发布:量化交易平台 java 编辑:程序博客网 时间:2024/06/04 10:46
抽屉原理:把多余N个物体反倒N个抽屉, 至少有一个抽屉里的物体数不少于两件。
simhash:如果两个输入(文档)越相似,其哈希值越相近。具体哈希算法,可以百度一下,也比较简单。
那么抽屉原理和simhash有什么关系呢?
他俩一般组合起来用,通常用于文档判重上。最著名的当然是google用于网页判重上。
定义两个文档相似为两个文档simhash值海明距离(二进制数不同的位数)小与3。
给定上亿的文档,如何计算新来一个文档有没有重复呢?
这时候就要用到抽屉原理了。我们可以将文档sim哈希值分成四段,那么根据抽屉原理,如果两个文档详细,那么至少有一段内容完全相同!
我们可以通过先将文档根据simhash值分4块,再按每块进行聚类(分组)。新来一个文档,将其simhash值也分成4块,再针对每块查找hash值完全相同的分组,就可以知道跟哪些文档相似了。
- 抽屉原理与Simhash
- SIMHASH算法原理与实现
- hihocoder 1246 : 王胖浩与环(抽屉原理)
- simhash算法的原理
- simhash算法的原理
- simhash算法的原理
- SIMhash算法原理
- simhash算法的原理
- simhash算法的原理
- simhash算法的原理
- simhash算法的原理
- simhash算法的原理
- simhash算法原理
- SimHash算法原理
- SimHash算法原理
- SimHash算法原理
- simhash原理及使用
- 深入理解simhash原理
- 顺序存储结构线性表基本操作 纯C语言实现
- servlet多线程
- include与jsp:include区别
- 如何分析HCI的Command Packet和Event Packet包
- FreeMaker中遍历List的用法
- 抽屉原理与Simhash
- 做产品,请不要忽视技术的重要
- 行军路线
- android ui设计利器
- ubuntu安装rpm包
- web.xml详细配置
- ASP.NET Menu
- Peoplesoft AWE Workflow configuration DMS scripts
- 字符数组VS字符指针