词语在文档中的重要性 -- TF-IDF算法

来源:互联网 发布:一人多个淘宝店技巧 编辑:程序博客网 时间:2024/04/29 03:05

1、  对于一个单词来说,文档向量中的一个维度就是该文档中的一个单词,其值就是该词在文档中出现的次数。这称之为TF(Term Frequency)权重。

2、   设一个文档中的单词的集合为:WD = {w1, w2, w3 ….. wn},又设单词集中单词的频率为TF={f1,f2, f3…..fn}

文档频率DF是有某个单词出现的文档个数,单词在文档中出现的次数并不计入文档频率。那么一个单词的逆文档频率为:IDFi = 1 / DFi

因为IDF会很小而使乘积后所得的权重值过小。这种情况下,最好乘以一个常数来归一化IDF值。所以:IDFi = N / DFi

3、  那么向量中单词wi的权重Wi= TFi * IDF= TFi* (N/DFi)

4、  因为IDFi= N / DFi 会掩盖在最终的单词权重中TF的影响,于是:

Wi = TFi * IDF= TFi * log(N/DFi)

5、  为了归一化TF,所以TFi,j  =fi,j  / max(fk,j),其中fi,j是单词wi 在文档j中出现的频数;max(fk,j) 是单词在文档j中出现的频数最大值;

6、  所以:Wi= TFi * IDF= TFi* log(N/DFi) =  fi,j / max(fk,j) * log(N/DFi)

0 0