TF-IDF算法

来源：互联网发布：linux apache ab测试编辑：程序博客网时间：2024/06/05 11:47

文章来源本文章是汇总阮一峰的博客，通俗易懂，值得关注

应用

　　提取一篇文章的关键词。一篇文章关键词特性是：在文章中出现的频率高，但是一般场景中并非常见。

基本介绍

　　TF—term frequency，词频；
　　IDF—Inverse Document Frequency，逆文档频率，其大小与词语在一般场景中常见程度成反比，及一般场景出现频率越低，其值越大；
　　综上，如果一篇文章中如果某个词语出现频率特别高，但是在一般场景并非常见，可知他是这篇文章的关键词。将TF*IDF来代表此文章一个单词的重要性程度。

算法细节

　　TF=某词在文章中出现的频率/文章的总次数；
　　（或者使用：TF=某词在文章中出现的频率/文章中出现次数最多的词语出现次数）
　　IDF=log（语料库文档总数/(包含该词的文档数+1））
　　
　　TF-IDF值：TF*IDF

其他

　　１.搜索与关键词最相关的文章：信息检索时，对于每个文档，都可以分别计算一组搜索词的TF-IDF，将它们相加，就可以得到整个文档的TF-IDF。这个值最高的文档就是与搜索词最相关的文档;
　　2.缺点：仅以词频作为衡量标准不全面，诸如位置信息也很重要，比如每一段的第一句话中出现的词语，权重应该较大。
　　

阅读全文

0 0