Feature Selection for Classification: A Review(1)

来源:互联网 发布:vb里的option 编辑:程序博客网 时间:2024/06/06 15:38

本文是Tang J, Alelyani S, Liu H. Feature selection for classification: A review[J]. Data Classification: Algorithms and Applications, 2014: 37.一文第一章的翻译

1.介绍

一般收集的噪声都会存在高层次的噪声,主要有两个原因,一是因为采集数据的技术不成熟,另一个是因为数据源本身也不不完美。降维技术是最流行的去噪和去冗余的技术,主要分为特征选择和特征提取两种方法。特征提取方法是将特征映射到一个更低维的特征空间中,一般新构造的特征是原来特征的组合,特征提取的典型方法有主成分分析法(principal component analysis, PCA),线性判别分析(Linear Discriminant Analysis,LDA)以及典型相关性分析(Canonical Correlation Analysis, CCA); 特征选择方法主要是选择原来特征的一个子集以达到最小冗余最大相关原则,带变形的特征选择技术包括信息增益,Fisher score,Relief, Lasso。

特征选择和特征提取方法都能够提高学习性能,降低计算复杂度,构建更好的泛化模型,减少存储空间。特征提取可以将特征空间映射到更加低维的特征空间中,但是很难将原来的特征和新构建的特征联系起来,因此对新特征的进一步分析是比较困难的,它并没有原来特征具有的物理意义。而特征选择知识从原来的特征中选取子集,在这种意义上来说,特征选择相比于特征提取有着更好的可读性和可解释性。一般来说,特征选择和特征提取是分离的,但是,可以通过稀疏学习(比如l1正则化)可以将特征提取转化为特征选择的方法。

对于分类问题,特征选择要选择出那些能够很好的(高度的)区分类别的特征,在训练的时候,分类问题的标签是已知的,所以我们一般用特征区分类别的能力来评价特征的相关性。


2.特征选择

特征选择根据训练集的标签是否已知的情况,特征选择可以分为监督的,非监督的和半监督的特征选择。

监督的特征选择方法进一步的分为filter模型,wrapper模型和embedded模型。filter模型将特征选择从分类器中分离了出来,relief,Fisher score, information gain是filter模型中的代表算法。wrapper模型使用预定义的学习算法的预测精度来决定选择的特征的优劣,但是如果特征数目很多的话,那么wrapper模型的时间开销将会非常大。因此embedded 模型被提出来了,它是连接filter和wrapper模型的桥梁,首先,它根据给出的子集数选择几个候选特征子集,然后,选择具有较高分类率的子集。通常,embedde模型能的精度会比wrapper模型要高,要比fitter模型有效率。

非监督的特征选择方法由于没有类别标签,因此他是一个约束较少的搜索问题,依赖于聚类的质量度量可以评价许多等价的合法特征子集。但是非监督的特征选择方法很难衡量特征间的相关性。

特征分权(feature weighting)被认为是特征选择的推广,在特征选择中,特征的权重就只有0(不选择)或者1(选择),而在特征酚醛中给每个特征分配一个值,一般在[0,1]或者[-1,1]之间。

总而言之,特征选择包括基本的四个步骤,子集的生成,子集的评估,停止标准,以及结果验证。首先基于某种搜索策略选择候选的特征子集,然后将候选自己时候某种确定的评估指标进行评价,最适合评价指标的子集将会被选出来直到满足停止条件,最后,选择出来的子集会被用来领域知识或验证集进行验证。


3.分类的特征选择

 通常为了让更好的表达一个(目标)概念,会产生一些不相关并且冗余的的特征,不相关的特征对目标概念的分类没有任何影响,冗余特征不会对目标特征加入任何新的东西。一般在分类前会去掉这些我们不想要的特征,来提高分类效率。

一般在分类中的特征选择试图选择特征中的最小子集,主要有以下的标准:

1)分类的精度不会减少的很多;

2)在特征子集情况下类的分布情况和原来的左右的特征下特征的分布是一样的;

理想情况下特征子集应该有2^m个,选择其中一个最好的,但是这样太花时间而且实际操作起来也有些限制,因此常使用启发式和随机搜索方法来减少计算的复杂度,这些方法都需要一个停止的条件来预防子集的过度搜索。


阅读全文
0 0