TFIDF并不能用来说明特征词的重要与否，只是用来区分不同文档

来源：互联网发布：美国地图软件编辑：程序博客网时间：2024/06/03 14:16

TFIDF并不能用来说明特征词的重要与否，只是用来区分不同文档！

文本分类入门（番外篇）特征选择与特征权重计算的区别一开始感觉好烧脑，，后来深入分析了一下，懂了不禁觉得该文章说的真好，指纹的例子极好~~

注意：根据TF的定义，tf是该词在该文档（一个！）中的频率，IDF是对总文档数m除以该词所在的文档数x取对数，对于整个文档集来说m是固定不变的，那么x越大，IDF越小（看IDF数学公式），TFIDF越小，该词越不能代表该文档；反过来说，x越小，IDF越大，TFIDF越大，该词越能代表该文档。极端例子来说，如果该词只存在于第五个文档中，其他文档中都没有，那么该词就越能代表第五个文档，此时你不能说该词就重要，它只是能够代表第五个文档，而不能代表剩余其他任何一个文档。

说权重代表的是差别，而不是优劣！

如此，你就再也不会拿TFIDF去做特征选择了。

那么，为什么论文中还在用呢，况且准确率还那么高呢？

因为，那是全监督学习！！半监督学习就无用武之地了！！根据TFIDF公式，计算得出该词能够代表这个文档，你就把该文档标注为该词，你说准确率高不高呢？！

也就是说，TFIDF只能用来全监督学习，因为该词只是能够代表该文档，对于文档集中其他文档都代表不了，更何况一个新的文档呢？！

这听起来有点自欺欺人的赶脚~~

所以，就像引文中说的，再提到TFIDF时，把权重忘掉吧，就用量化或者区分来代替好了。

那怎么看谁重要谁不重要呢？这就依赖于具体的选择方法如何来量化重要程度，对卡方检验和信息增益这类方法来说，量化以后的得分越大的特征就越重要（也就是说，有可能有些方法，是得分越小的越重要）。

0 0