比较两篇文章的相似性方法
来源:互联网 发布:贪心算法汽车加油问题 编辑:程序博客网 时间:2024/05/19 22:45
在一篇新闻中,这 64,000 个词的 TF/IDF 值分别为
如果单词表中的某个文章中没有出现,对应的值为零,那么这 64,000个数,组成一个64,000维的向量。我们就用这个向量来代表这篇新闻,并成为文章的特征向量。如果两篇文章的特征向量相近,则对应的新闻内容相似,它们应当归在一类,反之亦然。
2、利用simhash算法
1,将一个f维的向量V初始化为0;f位的二进制数S初始化为0;2,对每一个特征:用传统的hash算法对该特征产生一个f位的签名b。对i=1到f:如果b的第i位为1,则V的第i个元素加上该特征的权重;否则,V的第i个元素减去该特征的权重。3,如果V的第i个元素大于0,则S的第i位为1,否则为0;4,输出S作为签名。
通过计算两篇文章的签名的海明距离得出相似度。
如图:
以上的所有算法我们都只关注文章的全局信息,忽略了文章的局部信息。
海明距离:
对于向量u,v,海明距离为2个向量相异的位数
其中u_i,v_i表示第i维值。
当然还有一些其他的好方法。本文部分内容来自德问,谢谢相关作者的回答。
0 0
- 比较两篇文章的相似性方法
- [转]使用余弦定理计算两篇文章的相似性
- 使用余弦定理计算两篇文章的相似性
- 使用余弦定理计算两篇文章的相似性
- 怎样用word2007比较两篇文章的差异
- 两篇文章的相似度比较
- 学习Selenium比较好的两篇文章
- 两篇文章相似度:TF-IDF与余弦相似性的应用
- 两篇文章相似度:TF-IDF与余弦相似性的应用
- 【OpenCV】图像特征的提取以及相似性比较方法
- 两篇文章的link
- winsock的两篇文章
- 相似性的比较的总结
- 关于Portlet的两篇文章
- 近来发表的两篇文章
- RIA+REST的两篇文章
- 转帖LBS的两篇文章。
- ios推送的两篇文章
- seekg()/seekp()与tellg()/tellp()…
- 针对VC中的一些基础知识记录
- 使用matlab画不同填充图案的柱状图
- 输出BUG信息的简单方式
- 数组子串问题
- 比较两篇文章的相似性方法
- 编辑距离及其算法
- 字符串包含问题算法
- 基于字符串比对的文档复制检测方法
- 【原创】LSH和p-stable LSH
- matlab利用描点画平滑曲线
- set_new_handler()总结
- 剑指Offer之 - 二维数组中的查找
- nginx thin 部署rails3程序