LSH相似网页查找

来源:互联网 发布:vb datagrid设置列数 编辑:程序博客网 时间:2024/05/16 07:29

寻找相似网页:如何快速判断网页的相似度

网页文本对比方法:

分词后Jaccard相似度

  • 一一比对很慢

Top N长度的句子,hash成n个签名

  • 简单粗暴,准确率和召回率高(80%)

Shingle算法

  • 原理复杂
局部敏感度hash:Simhash
  • google用它完成亿级别的网页去重,汉明距离<3
文档->分词->TF-IDF权重->普通hash->加权->合并累加->降维->汉明距离

0 0
原创粉丝点击