TF-IDF算法学习

来源:互联网 发布:软件测试pdf 编辑:程序博客网 时间:2024/05/22 01:52

TF-IDF(Term Frequency-Inverse Document Frequency),中文叫做词频-逆文档频率。在文本挖掘(Text Mining)和信息检索(Information Retrieval)领域具有广泛的应用。
它的基本思想是:在一个文档集合S中,根据单个文档D中某个关键字k的出现频率以及集合中出现该关键字的文档总数,计算该关键字关于文档D的权值。
一、TF(Term Frequency),关键词的频率
关键词在该网页中出现的次数除以该网页的总字数。我们把这个商称为“关键词的频率”,或者单文本词频(term frequence, TF)。
TF(漏洞)
1、对关键词的次数进行归一化,以防止它偏向长的文件。(同一个词语在长文件里可能会比短文件有更高的词频,而不管该词语重要与否。)
2、停用词
很容易发现,如果一个关键词只在很少的文章中出现,通过它就容易锁定搜索目标,它的权重也就应该大。
反之,如果一个词在大量文章中出现,看到它仍然不很清楚要找什么内容,因此它的权重就应该小。
二、IDF(Inverse Document Frequency),逆文本频率
是一个关键词的权重。某一特定关键词的IDF,可以由总文件数目除以包含该关键词之文件的数目,再将得到的商取对数得到。
三、公式

其中,分子表示文档中该词的出现频率,分母表示文档中出现的总词数目。

其中分子表示文档总数,分母表示出现该关键词的文档数目

做权值计算时,可以选取log函数,sin函数,取平方根作区分函数。但实际证明选取log函数来作为文档权值的区分函数,可以很轻松的将停用词(stopword)区分开来,同时也可以将表征文档特征的短语很显式的反
映出来,将各个文档之间很小的区别进行放大,便于最后的检索。


0 0
原创粉丝点击