文本挖掘之降维技术之特征选择
来源:互联网 发布:ps ef grep java 编辑:程序博客网 时间:2024/05/16 07:47
1、为什么要进行降维处理?
1.多重共线性--预测变量之间相互关联。多重共线性会导致解空间的不稳定,从而可能导致结果的不连贯。
2.高维空间本身具有稀疏性。一维正态分布有68%的值落于正负标准差之间,而在十维空间上只有0.02%。
3.过多的变量会妨碍查找规律的建立。
4.仅在变量层面上分析可能会忽略变量之间的潜在联系。例如几个预测变量可能落入仅反映数据某一方面特征的一个组内。
降维的目的:
1.减少预测变量的个数
2.确保这些变量是相互独立的
3.提供一个框架来解释结果
2.1、文档频率(Doeument Frequency DF)
词条的文档频率(DF)就是指在训练样本集中出现该词条的文档数。在进行特征抽取时,将DF高于某个特定阑值的词条提取出来,低于这个阈值的词条给予滤除。
DF评估函数的理论假设是稀有词条不含有有用信息,或含有的信息太少不足以对分类产生影响,而应当被去除。然而这种假设与一般的信息抽取观念有点冲突,因为在信息抽取中,有些稀有词条(如类别特征词)却恰恰比那些中频词更能反映类别的特征而不应该被滤除,因此单独使用DF评估函数进行特征选择未免太武断了。
2.2 、文档频率-逆向文档频率特征
2.3、互信息(MI)
或者使用这种公式计算
MI的缺点:在文本分类中,MI 特征的不足之处在于极少出现的特征词的 MI 值要大于正常出现特征词的 MI,这一点与文本特征分类恰恰相反。因此,基于 MI 特征的文本分类算法检测性能较差。
2.4、信息增益(IG)
或者用以下公式计算也可以
或者用下面的公式理解
2.5、期望交叉熵(ECE)
2.6、x^2统计法(CHI)
2.7、相关系数(CC)
2.8、文本证据权重
或者以下理解
通过查阅大量的文献,可以得出一些研究者对特征选择算法有如下的评价分类效果最好
的是文本证据权重算法,其次是信息增益、期望交叉熵、卡方,最后是互信息方法。
2.9、几率比(OR)
- 文本挖掘之降维技术之特征选择
- 文本挖掘之特征选择(python 实现)
- 机器学习:文本挖掘之特征选择
- 文本挖掘之特征选择_python
- 文本挖掘之降维技术之特征抽取之非负矩阵分解(NMF)
- 文本挖掘之降维技术之特征提取之因子分析(FA)
- 文本挖掘之特征选择(python实现)
- 文本之特征选择
- 数据挖掘之特征选择
- 数据挖掘之特征选择
- 数据挖掘之特征选择
- 文本挖掘之降维之特征抽取之主成分分析(PCA)
- 文本挖掘--文本特征选择-java实现
- 文本分类之降维技术之特征抽取之LDA线性判别分析
- 机器学习之文本特征选择
- 机器学习&数据挖掘:特征选择之Filter : Focus Approach
- 机器学习&数据挖掘:特征选择之 wrapper approach
- 文本分类之降维技术之特征抽取之SVD矩阵的分解的原理的介绍
- 常用人脸库
- 网络请求设置 && arc&mrc互转
- 可能是最鸡汤的面经
- 黑马程序员_代码块
- Python中用feedparser解析RSS
- 文本挖掘之降维技术之特征选择
- 2015年9月——2016年2月半年总结
- App集成ApplePay
- 数组和指针的区别
- Eclipse运行时提示“Failed to load the JNI shared library /Java/jre6/bin/client/jvm.dll”的一个解决方案
- Android Studio常用插件
- App Extensions 打开 app
- HTML之DOM
- unity 背景动态模糊(blur)和截屏方法