《大数据》笔记 TF.IDF

来源：互联网发布：手机恶意软件排行编辑：程序博客网时间：2024/04/30 12:25

TF.IDF在Lucene中被用来计算关键词和检索结果的相关度。

TF = Term Frequency

反映关键词在某篇文档中出现的频率，频率越高，自然就越相关

TF不是（关键词出现个数）/（所有词个数），而是做了归一化的（关键词出现个数）/（这篇文档中出现次数最多的那个词的出现个数）。

IDF = Inverse Document Frequency

首先看DF

DF是（出现了关键词的文档数）/（总文档数）

因此DF越大，说明这个词越常见，而常见的词不能很好的反映相关度（比如”的“字可能在某篇文档处出现了100次，但它几乎在所有文档中都出现，此时的DF=1，说明”的“字不能很好的反映相关度）

IDF =log (1/（我所定义的DF）) 越高相关度越大

TF * IDF反映词与文档的相关度，越大越相关。

如”故乡的云“，分为”故乡“，”的“，”云“，TF.IDF为它们的权重，TF.IDF越大说明这个词越重要，由常识可知，”故乡“和“云”的TF.IDF将大于"的"字，所以前两个词是反映文档内容的关键词。