TF-IDF算法

来源：互联网发布：人工智能图书馆编辑：程序博客网时间：2024/05/22 08:17

概率

TF-IDF是一种用于资讯检索于咨询勘测的常用加权技术。TF-IDF是一种统计方法，用来衡量一个词对一个文件集的重要程度。字词的重要性与他在文件中出现的次数成正比增加，与他在文件集中出现的次数成反比下降。

原理

TF：在一份文件中，词频（TF）是指某一个词的出现次数。这个数字通常会被归一化，防止他偏向唱的文件。（同一个词语在长的文件中可能具有更高的词频）

IDF：逆向文件频率，是指一个词语普遍重要性的度量。IDF可以由总文件数目除以包含该词语的文件数目，再将得到的商取对数得到。

计算

TF ：这里是用在词在该文件中出现的次数除以该文件中词的总量。做了一个归一化处理

IDF： D是文档总数，分母是出现该词汇的文档数量，一般分母我们用表示，防止分母为0

TF-IDF：

评价

TF-IDF算法原理简单，易于实现，可以去除一些没用的词汇，比如中文中的“的”，出现的次数很多，但逆文档频率很小，可以去除。

0 0