TF-IDF算法学习

来源：互联网发布：软件测试pdf 编辑：程序博客网时间：2024/05/22 01:52

TF-IDF(Term Frequency-Inverse Document Frequency)，中文叫做词频－逆文档频率。在文本挖掘(Text Mining)和信息检索(Information Retrieval)领域具有广泛的应用。
它的基本思想是：在一个文档集合S中，根据单个文档D中某个关键字k的出现频率以及集合中出现该关键字的文档总数，计算该关键字关于文档D的权值。
一、TF(Term Frequency),关键词的频率
关键词在该网页中出现的次数除以该网页的总字数。我们把这个商称为“关键词的频率”，或者单文本词频（term frequence, TF）。
TF(漏洞)
1、对关键词的次数进行归一化，以防止它偏向长的文件。（同一个词语在长文件里可能会比短文件有更高的词频，而不管该词语重要与否。）
2、停用词
很容易发现，如果一个关键词只在很少的文章中出现，通过它就容易锁定搜索目标，它的权重也就应该大。
反之，如果一个词在大量文章中出现，看到它仍然不很清楚要找什么内容，因此它的权重就应该小。
二、IDF(Inverse Document Frequency),逆文本频率
是一个关键词的权重。某一特定关键词的IDF，可以由总文件数目除以包含该关键词之文件的数目，再将得到的商取对数得到。
三、公式

其中,分子表示文档中该词的出现频率，分母表示文档中出现的总词数目。

其中分子表示文档总数，分母表示出现该关键词的文档数目

做权值计算时，可以选取log函数，sin函数，取平方根作区分函数。但实际证明选取log函数来作为文档权值的区分函数，可以很轻松的将停用词(stopword)区分开来，同时也可以将表征文档特征的短语很显式的反
映出来，将各个文档之间很小的区别进行放大，便于最后的检索。

0 0