文章标题

来源:互联网 发布:软件外包开发 编辑:程序博客网 时间:2024/06/03 15:37

TF-IDF:计算文档词频的加权算法

TF

TF:term frequency 词频

IDF

逆文档率
log(总文档数/(含词频的文档数+1))

TF-IDF

=TF*IDF
以上是计算词频的权重

余弦相似(这个是计算文档的相似性)

a:利用TF-IDF进行分词,对文档的分词利用余弦公式求距离,越相似,余弦值越大
余弦公式:cos(theta)=(a^2+b^2-c^2)/2ab

0 0
原创粉丝点击