Simhash的适用情况及其局限

来源：互联网发布：p2c网络金融平台编辑：程序博客网时间：2024/05/16 08:48

需求是这样的：给出一个文档集合，以及一个领域概念集合，要求根据这些领域概念计算文档的相似性。

首先想到的是利用余弦相似性计算。起初得到的集合有大概几万篇文档，如果对每对文档进行余弦相似度计算，会导致时间复杂度较高，于是发现了Simhash方法。

由于已经给出了用于计算哈希值的关键词（即这些领域概念），就省去了对文章进行分词的步骤。每篇文档都用其领域概念列表计算出文档的哈希值，并使用这些哈希值比较文档的相似度。这几万篇文档的效果还不错，然而换了一批文档之后，发现Simhash的效果还是比较糟糕的。

一开始的几万篇文档是从各个网站爬取的新闻语料，由于各网站新闻存在重复现象（比如只有标题有些区别，内容基本是一样的。。），所以文档集合中也存在基本雷同的新闻，在这种情况下，Simhash的效果很好，能识别出这些文档，算出来的相似度也很高。

然而后来有一个新的文档集合，只有几百篇文档，并且是人工构造的，语料比较干净，所以基本不会出现大段内容重复的情况，在这种情况下Simhash的效果就比较差了。

Simhash本身就是Google用于对海量网页去重的算法，在去重这方面，Simhash的效果还是很赞的，适合查找大段文本相似的文章，但是对仅仅是同样涉及某一个或几个概念，而非大段内容相似的文章来说，效果并不好。在关键词少、文章内容短的情况下，Simhash也不能达到很好的效果。

0 0