基于VSM计算相似度(含Python代码)

来源:互联网 发布:如何取淘宝店名 编辑:程序博客网 时间:2024/05/16 14:07

【本文核心来源于:http://www.cnblogs.com/eastmount/p/5055913.html

计算相似度的基本思想:

1、分别统计两个文档的关键词;

2、两篇文章的关键词合并成一个集合,相同的合并,不同的添加

3、计算每篇文章对这个集合的词的词频,TF-IDF计算其权重

4、生成两篇文章各自的词频向量

5、计算两个向量的余弦相似度,值越小越相似

详细代码见上述链接

原创粉丝点击