TF-IDF

来源:互联网 发布:郑州淘宝衣族加盟骗局 编辑:程序博客网 时间:2024/05/01 10:08

      TF-IDF(term frequency–inverse document frequency)是一种基于统计方法的常用加权技术。它的目的是评估一个字词对一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比,但同时会随着它在语料库中出现的频率成反比下降。这种算法经常被用于自然语言处理和搜索领域。


      词频term frequency,TF)指的是给定的某个词语在该文件中出现的次数,,这个数字会被归一化,以防止它偏向长的文件。同一个词语在长文件中可能比短文件中拥有更高的词频,不管该词语重要与否。词频计算公式如下:


其中分子表示该词语在文件Dj中出现的次数,而分母则是文件Dj中所有字词出现的次数之和。



      逆向文件频率(inverse document frequency,IDF)是词语普遍重要性的度量,某一特定词语的IDF,可以由总文件数目除以包含该词语的文件的数目,再将得到的商取对数得到。即如果包含词条t的文档越少,也就是n越小,IDF越大,则说明词条t具有很好的类别区分能力。公式如下图所示:


分子:语料库中的文件总数

分母:包含词语ti的


      然后



上面的乘号就是乘的意思,比如某个词语的tf=0.03,df=4,那么tf-idf=0.03×4=0.12

某一特定文件的词语频率,以及该词语在整个集合文件中的低文件频率,会产生高权重的tf-idf。因此,tf-idf算法倾向于过滤掉常见的词语,保留重要的词语。


      TF-IDF的主要思想是,如果某个词或短语在一篇文章中出现的词频TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。


      tf-idf只是一种分析主题词的一种手段,个人感觉效果未必好,据楼上实验室同学说现在用深度学习跑的demo还可以,没有了解过,近期还是准备看看基础知识。






0 0