TF-IDF
来源:互联网 发布:国学达人网络挑战赛 编辑:程序博客网 时间:2024/05/01 05:32
原理
在一份给定的文件里,词频(term frequency,TF)指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被正规化,以防止它偏向长的文件。(同一个词语在长文件里可能会比短文件有更高的词频,而不管该词语重要与否。)对于在某一特定文件里的词语ti 来说,它的重要性可表示为:
以上式子中 ni,j 是该词在文件dj中的出现次数,而分母则是在文件dj中所有字词的出现次数之和。
逆向文件频率(inverse document frequency,IDF)是一个词语普遍重要性的度量。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到:
其中
- |D|:语料库中的文件总数
- :包含词语ti的文件数目(即的文件数目)
然后
某一特定文件内的高词语频率,以及该词语在整个文件集合中的低文件频率,可以产生出高权重的TF-IDF。因此,TF-IDF倾向于过滤掉常见的词语,保留重要的词语。
例子
有很多不同的数学公式可以用来计算TF-IDF。这边的例子以上述的数学公式来计算。词频 (TF) 是一词语出现的次数除以该文件的总词语数。假如一篇文件的总词语数是100个,而词语“母牛”出现了3次,那么“母牛”一词在该文件中的词频就是 0.03 (3/100)。一个计算文件频率 (DF) 的方法是测定有多少份文件出现过“母牛”一词,然后除以文件集里包含的文件总数。所以,如果“母牛”一词在1,000份文件出现过,而文件总数是10,000,000份的话,其逆向文件频率就是 9.21 ( ln(10,000,000 / 1,000) )。最后的TF-IDF的分数为0.28( 0.03 * 9.21)。
在向量空间模型里的应用
TF-IDF权重计算方法经常会和余弦相似度(cosine similarity)一同使用于向量空间模型中,用以判断两份文件之间的相似性。
- TF/IDF
- TF-IDF
- TF-IDF
- TF-IDF
- TF-IDF
- TF-IDF
- TF-IDF
- TF-IDF
- TF-IDF
- TF-IDF
- TF-IDF
- TF-IDF
- tf-idf
- tf-idf
- TF-IDF
- tf-idf
- TF-IDF
- TF-IDF
- Win32 多线程程序设计(5)— 线程的控制
- 情景分析:安德鲁蚂蚁
- poj 2472--106 miles to Chicago-最短路flody
- VC防止窗口和控件闪烁的方法
- 算法导论 22.2-8 无向图遍历
- TF-IDF
- 将Sql2008的数据库转到2005
- java中对字符测试有用的方法
- With Finance Disgraced, Which Career Will Be King?
- JS关闭窗口兼容Firefox、Chrome、IE(二次总结后)
- JS DEBUG
- 模板方法模式VS建造者模式
- LightOJ 1239 CONVEX FENCE
- JavaScript栏目隐藏简单实现