特征选择

来源：互联网发布：单位封游戏端口编辑：程序博客网时间：2024/04/29 17:58

对于做中文文本分析来说，特征选择可谓是关键一步。

在一个数据集中的特征数往往特别大，为了减少计算量和提高分类的效果，往往需要进行特征提取，选取信息量更大，对分类更有作用的特征。

现有特征选择方法大致如下：

1、文档频次法(DF)

文档频次法是一种最简单的特征选择方法，通过计算每个特征的文档频次(包含该特征的文档数)，将文档频率低(信息量不大)和文档频率高(大部分文档都包括的特征对分类效果影响不大)的特征删除，其余作为分类特征。

2、信息增益(IG)

信息量为在分类过程中，特征所包含的信息。即，一个变量可能的变化越多（反而跟变量具体的取值没有任何关系，只和值的种类多少以及发生概率有关），它携带的信息量就越大。而信息增益则为有无该特征所带来的信息量的差(增益)，即该特征的信息增益，对分类效果的影响。

3、卡方统计(CHI)

卡方统计通过测量特征与类别之间的依赖性来进行特征的选取，CHI值越大意味着特征与类别之间的依赖性更强，相反CHI值越小意味特征与类别之间相对独立。

4、互信息(MI)

互信息主要考虑的是特征与类别之间的关联性，如果关联性越大，那么该特征所包含的信息量也就越大，故可作为特征选择的方法。

0 0