TF-IDF:网页和某个查询的相关性

来源:互联网 发布:手感好的无线鼠标知乎 编辑:程序博客网 时间:2024/05/29 04:56

TF-IDF网页和某个查询的相关性

计算

TF:

关键词的频率 单文本词汇频率 Term Frequency

衡量关键词在单个网页中出现的频率。

关键词的次数/单个网页的总字数去掉应删除词(stopwords))。

IDF:

逆文本频率指数 Inverse document frequency

衡量一个词在整个文档集(所有网页)中的权重。

Log(D/Dw) 一个关键词wDw个网页中出现过D是全部网页数Log=ln

一个查询的TF-IDF=TF1*IDF1+TF2*IDF2+……+TFN*IDFN,其中TF1为查询词1对网页的TF值,IDF1对一个查询词针对所有结果的IDF

一个单词的TF-IDF=TF*IDF

通过以上定义我们可以看到:

TF-IDF主要作用是衡量一个网页和某个查询的相关性,适用范围为搜索结果的排序。

TF只是衡量了关键词在一个网页中的出现频率。

IDF则衡量了关键词在整个文档集中的权重。

如果一个词在某一个网页中出现的频率高,它又在整个文档集中占有比较高的权重,显然,这个词重要,权重比较大。也就是说这个词的TF-IDF积比较大。

这样以来,单个网页与查询的相关性其实就是一个查询中的各关键词的TF-IDF的求和。

针对一个关键词的TF-IDF来说,可以它用来衡量关键词在单个网页中权重。