《大数据》笔记 TF.IDF

来源:互联网 发布:手机恶意软件排行 编辑:程序博客网 时间:2024/04/30 12:25

TF.IDF在Lucene中被用来计算关键词和检索结果的相关度。

TF = Term Frequency

反映关键词在某篇文档中出现的频率,频率越高,自然就越相关

TF不是(关键词出现个数)/(所有词个数),而是做了归一化的(关键词出现个数)/(这篇文档中出现次数最多的那个词的出现个数)。


IDF = Inverse Document Frequency

首先看DF

DF是(出现了关键词的文档数)/(总文档数)

因此DF越大,说明这个词越常见,而常见的词不能很好的反映相关度(比如”的“字可能在某篇文档处出现了100次,但它几乎在所有文档中都出现,此时的DF=1,说明”的“字不能很好的反映相关度)

IDF =log (1/(我所定义的DF)) 越高相关度越大


TF * IDF反映词与文档的相关度,越大越相关。

如”故乡的云“,分为”故乡“,”的“,”云“,TF.IDF为它们的权重,TF.IDF越大说明这个词越重要,由常识可知,”故乡“和“云”的TF.IDF将大于"的"字,所以前两个词是反映文档内容的关键词。

原创粉丝点击