程序博客网 > ps ef grep java

文本挖掘之降维技术之特征选择

来源：互联网发布：ps ef grep java 编辑：程序博客网时间：2024/05/16 07:47

1、为什么要进行降维处理？

1.多重共线性--预测变量之间相互关联。多重共线性会导致解空间的不稳定，从而可能导致结果的不连贯。

2.高维空间本身具有稀疏性。一维正态分布有68%的值落于正负标准差之间，而在十维空间上只有0.02%。

3.过多的变量会妨碍查找规律的建立。

4.仅在变量层面上分析可能会忽略变量之间的潜在联系。例如几个预测变量可能落入仅反映数据某一方面特征的一个组内。

降维的目的：

1.减少预测变量的个数

2.确保这些变量是相互独立的

3.提供一个框架来解释结果

2.1、文档频率(Doeument Frequency DF)

词条的文档频率(DF)就是指在训练样本集中出现该词条的文档数。在进行特征抽取时,将DF高于某个特定阑值的词条提取出来,低于这个阈值的词条给予滤除。

DF评估函数的理论假设是稀有词条不含有有用信息,或含有的信息太少不足以对分类产生影响,而应当被去除。然而这种假设与一般的信息抽取观念有点冲突,因为在信息抽取中,有些稀有词条(如类别特征词)却恰恰比那些中频词更能反映类别的特征而不应该被滤除,因此单独使用DF评估函数进行特征选择未免太武断了。

2.2 、文档频率-逆向文档频率特征

2.3、互信息（MI）

或者使用这种公式计算

MI的缺点：在文本分类中，MI 特征的不足之处在于极少出现的特征词的 MI 值要大于正常出现特征词的 MI，这一点与文本特征分类恰恰相反。因此，基于 MI 特征的文本分类算法检测性能较差。

2.4、信息增益（IG）

或者用以下公式计算也可以

或者用下面的公式理解

2.5、期望交叉熵（ECE）

2.6、x^2统计法(CHI)

2.7、相关系数（CC）

2.8、文本证据权重

或者以下理解

通过查阅大量的文献,可以得出一些研究者对特征选择算法有如下的评价分类效果最好

的是文本证据权重算法,其次是信息增益、期望交叉熵、卡方,最后是互信息方法。

2.9、几率比（OR）

4 0

ps ef grep java

ps ef grep java

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子华硕t100ta 华硕n 华硕i7 华硕驱动华硕旗舰店华硕x450j 华硕a55 华硕fl5600 华硕x555li 华硕k550v 华硕b150 华硕v555l 华硕w50j 华硕k55 x450j华硕华硕a43s 华硕a455l 华硕vm590 华硕f555l 华硕e502 华硕x43b 华硕g11 vm510l华硕华硕a43 华硕y581l 华硕fl5800 华硕pro552s 华硕路由华硕k501 华硕公司华硕gtx970 华硕x555s 华硕u303 华硕x552e 华硕s400 华硕zx50j 华硕w419l 华硕logo 华硕fx50 华硕a555l 华硕i3