特征选择

来源:互联网 发布:单位封游戏端口 编辑:程序博客网 时间:2024/04/29 17:58

对于做中文文本分析来说,特征选择可谓是关键一步。

在一个数据集中的特征数往往特别大,为了减少计算量和提高分类的效果,往往需要进行特征提取,选取信息量更大,对分类更有作用的特征。

现有特征选择方法大致如下:

1、文档频次法(DF)

文档频次法是一种最简单的特征选择方法,通过计算每个特征的文档频次(包含该特征的文档数),将文档频率低(信息量不大)和文档频率高(大部分文档都包括的特征对分类效果影响不大)的特征删除,其余作为分类特征。

2、信息增益(IG)

信息量为在分类过程中,特征所包含的信息。即,一个变量可能的变化越多(反而跟变量具体的取值没有任何关系,只和值的种类多少以及发生概率有关),它携带的信息量就越大。而信息增益则为有无该特征所带来的信息量的差(增益),即该特征的信息增益,对分类效果的影响。

3、卡方统计(CHI)

卡方统计通过测量特征与类别之间的依赖性来进行特征的选取,CHI值越大意味着特征与类别之间的依赖性更强,相反CHI值越小意味特征与类别之间相对独立。

4、互信息(MI)

互信息主要考虑的是特征与类别之间的关联性,如果关联性越大,那么该特征所包含的信息量也就越大,故可作为特征选择的方法。

0 0