TF-IDF与关键字提取

来源:互联网 发布:网络散布谣言罪 编辑:程序博客网 时间:2024/05/20 22:37

TF-IDF是一种统计方法,用于评估一个词对N篇文章或一个语料库中其中一篇文章的重要性。

IDF:是一个词普遍重要性的度量。

TFIDF:

例如:
某测试语料库中共有1000篇文章,其中某一篇文章分出100个词,该篇文章中“物联网”一词出现了5次,那么TF(物联网)=5/100 = 0.05,
如果物联网在该语料库中100篇文章中出现过那么IDF(物联网) =log(1000/(100+1))=0.995,TF-IDF(物联网)=0.995*0.05=0.04975。

 

应用:
计算该篇文章每个词的TF-IDF值,选出规定数量的词即可找到该篇文章中的关键词。

 

 

原创粉丝点击