根据simhash找出集合中相似文档的算法

来源：互联网发布：js 获取td的内容编辑：程序博客网时间：2024/06/05 09:33

google的simhash算法可以用来衡量原始文档的相似程度。如何判断呢？很简单，就是求2个文档的simhash的距离（即二进制数字中不相同的位的个数）。

本文不想阐述simhash如何产生、如何计算距离，而是要解决从大量文档中找出相似的文档的问题（我们认为距离为1或2时，两文档相似，为0即相等不考虑）。最笨的方法当然是两两比较了，但是当集合中文档数量很大时，两两比较将会很不现实。那该怎么办呢？我的同事ruan给出了一个算法（这个算法也许来自某本书，这里暂且不管）。

算法很简单，当距离小于3时，我们认为文档A和文档B相似，所以我们将所有simhash数值按位均分成3段，即：

A=A1 A2 A3，B=B1 B2 B3，。。。，

如果A和B相似，必然存在某一个段是相等的，也就是说A和B相似，要么A1=B1，要么A2=B2，要么A3=B3，否则A和B不相似。

所以我们按段分组，同一组内的数据再做两两比较，大大减少了比较次数，提高了效率。第一个段分组计算完后再按第二个段、第三个段分组做同样操作。

如果距离小于7时，认为是相似的，就将simhash分成7段，计算方法相同。