simhash算法

来源:互联网 发布:windows grub 修复系统 编辑:程序博客网 时间:2024/04/29 11:53

 simhash算法

发表于6个月前(2015-11-01 19:25)   阅读(75) | 评论(0) 8人收藏此文章, 我要收藏
0


simhash是google用来处理海量文本去重的算法。 google出品,你懂的。 simhash最牛逼的一点就是将一个文档,最后转换成一个64位的字节,暂且称之为特征字,然后判断重复只需要判断他们的特征字的距离是不是<n(根据经验这个n一般取值为3),就可以判断两个文档是否相似。

simhash算法原理及实现

simhash与Google的网页去重

海量数据相似度计算之simhash和海明距离

0 0
原创粉丝点击