TFIDF并不能用来说明特征词的重要与否,只是用来区分不同文档
来源:互联网 发布:美国地图 软件 编辑:程序博客网 时间:2024/06/03 14:16
TFIDF并不能用来说明特征词的重要与否,只是用来区分不同文档!
文本分类入门(番外篇)特征选择与特征权重计算的区别 一开始感觉好烧脑,,后来深入分析了一下,懂了 不禁觉得该文章说的真好,指纹的例子极好~~
注意:根据TF的定义,tf是该词在该文档(一个!)中的频率,IDF是对总文档数m除以该词所在的文档数x取对数,对于整个文档集来说m是固定不变的,那么x越大,IDF越小(看IDF数学公式),TFIDF越小,该词越不能代表该文档;反过来说,x越小,IDF越大,TFIDF越大,该词越能代表该文档。极端例子来说,如果该词只存在于第五个文档中,其他文档中都没有,那么该词就越能代表第五个文档,此时你不能说该词就重要,它只是能够代表第五个文档,而不能代表剩余其他任何一个文档。
说权重代表的是差别,而不是优劣!
如此,你就再也不会拿TFIDF去做特征选择了。
那么,为什么论文中还在用呢,况且准确率还那么高呢?
因为,那是全监督学习!!半监督学习就无用武之地了!!根据TFIDF公式,计算得出该词能够代表这个文档,你就把该文档标注为该词,你说准确率高不高呢?!
也就是说,TFIDF只能用来全监督学习,因为该词只是能够代表该文档,对于文档集中其他文档都代表不了,更何况一个新的文档呢?!
这听起来有点自欺欺人的赶脚~~
所以,就像引文中说的,再提到TFIDF时,把权重忘掉吧,就用量化或者区分来代替好了。
那怎么看谁重要谁不重要呢?这就依赖于具体的选择方法如何来量化重要程度,对卡方检验和信息增益这类方法来说,量化以后的得分越大的特征就越重要(也就是说,有可能有些方法,是得分越小的越重要)。
0 0
- TFIDF并不能用来说明特征词的重要与否,只是用来区分不同文档
- 找工作并不只是重视语言,更重要的是基础知识
- Hadoop计算文档的中每个词的TFIDF值
- 基于TFIDF的文档表示法
- Pyhton 基于scikit的TFIDF特征抽取如何使用
- MIDAS中动态强制约束编程,一个用来区分 MIDAS 与其他分布式数据库解决方案的特征
- 技术只是工具,你不能用它来代替生活
- 关于java重载为什么不能用不同返回值区分
- 计算两篇文档的余弦相似度(tfidf)
- Set里的元素是不能重复的,那么用什么方法来区分重复与否呢? 是用==还是equals()? 它们有何区别?
- Set里的元素是不能重复的,那么用什么方法来区分重复与否呢? 是用==还是equals()? 它们有何区别?
- Set里的元素是不能重复的,那么用什么方法来区分重复与否呢? 是用==还是equals()? 它们有何区别?
- Set里的元素是不能重复的,那么用什么方法来区分重复与否呢? 是用==还是equals()? 它们有何区别?
- 15.Set里的元素是不能重复的,那么用什么方法来区分重复与否呢? 是用==还是equals()? 它们有何区别?
- Set里的元素是不能重复的,那么用什么方法来区分重复与否呢? 是用==还是equals()? 它们有何区别?
- Set里的元素是不能重复的,那么用什么方法来区分重复与否呢? 是用==还是equals()? 它们有何区别?
- Set里的元素是不能重复的,那么用什么方法来区分重复与否呢 是用==还是equals() 它们有何区别
- Set里的元素是不能重复的,那么用什么方法来区分重复与否呢? 是用==还是equals()? 它们有何区别?
- SQL基础知识(1)
- C# 写日志,用于记录程序运行状态
- <div+css页面布局课堂笔记>5---与盒子相关的CSS属性第二部分
- 从此不求人:自主研发一套PHP前端开发框架(8)
- 从此以后,在这里写点东西咯
- TFIDF并不能用来说明特征词的重要与否,只是用来区分不同文档
- 上百道c++面试题总结、c++知识点总结
- 125条常见的java面试、笔试题大汇总
- Gym 100917D dir -C(RMQ)
- 【leetcode】65.Valid Number
- hdu1160 FatMouse's Speed--DP&记录路径
- java volatile 详解
- Java并发编程:volatile关键字解析
- jQuery