<转>TF-IDF与余弦相似性的应用:找出相似文章

来源:互联网 发布:淘宝卖家贷款 编辑:程序博客网 时间:2024/06/07 07:19
1.使用TF-IDF算法,找出两篇文章的关键词;
2.每篇文章各取出若干个关键词(比如20个),合并成一个集合,计算每篇文章对于这个集合中的词的词频(为了避免文章长度的差异,可以使用相对词频);
3.生成两篇文章各自的词频向量;
4.计算两个向量的余弦相似度,值越大就表示越相似。

具体实现步骤/内容来源
相关数学知识:余弦

阅读全文
0 0
原创粉丝点击