TF-IDF算法

来源:互联网 发布:linux apache ab测试 编辑:程序博客网 时间:2024/06/05 11:47

文章来源本文章是汇总阮一峰的博客,通俗易懂,值得关注

应用

  提取一篇文章的关键词。一篇文章关键词特性是:在文章中出现的频率高,但是一般场景中并非常见。

基本介绍

  TF—term frequency,词频;
  IDF—Inverse Document Frequency,逆文档频率,其大小与词语在一般场景中常见程度成反比,及一般场景出现频率越低,其值越大;
  综上,如果一篇文章中如果某个词语出现频率特别高,但是在一般场景并非常见,可知他是这篇文章的关键词。将TF*IDF来代表此文章一个单词的重要性程度。

算法细节

  TF=某词在文章中出现的频率/文章的总次数;
  (或者使用:TF=某词在文章中出现的频率/文章中出现次数最多的词语出现次数)
  IDF=log(语料库文档总数/(包含该词的文档数+1))
  
  TF-IDF值:TF*IDF

其他

  1.搜索与关键词最相关的文章:信息检索时,对于每个文档,都可以分别计算一组搜索词的TF-IDF,将它们相加,就可以得到整个文档的TF-IDF。这个值最高的文档就是与搜索词最相关的文档;
  2.缺点:仅以词频作为衡量标准不全面,诸如位置信息也很重要,比如每一段的第一句话中出现的词语,权重应该较大。
  

原创粉丝点击