tf-idf

来源:互联网 发布:功能测试软件有哪些 编辑:程序博客网 时间:2024/05/01 12:33

希望关键词是在一类文章中出现的次数尽可能多,在其他类文章中出现尽可能少。

tf = 一个词在一类文章中出现的次数/这类文章总数(在一类文章中出现的次数尽可能多)
idf = 文章总数/包含这个词的文章数(在其他类文章中出现尽可能少。)

得出的tf*idf越大,则说明越有可能是关键词

0 0
原创粉丝点击