tf*idf 用于文本分类中的特征提取

来源:互联网 发布:qq飞车优化设置 编辑:程序博客网 时间:2024/05/21 19:27

tf*idf

tf*idf,term frequency * inverse document frequency,词频 *逆向文档频率。

1.思想

TF-IDF是一种统计方法,用于评估某个词语在文档集合中的重要程度。
如果某个词语term在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为这个词语具有很好的文档分类能力。

2.公式

tfij=termidocjdocj,表示词语i在文档j中的频率。
idfi=lg(i),含有词语i的文档数越少,则此项得分最高。
tfidfi=idfijntfij,得分越高表示词语i对文章的分类能力越强。

3.用途

文本分类中的特征提取。

0 0