特征选择

来源：互联网发布：网站源码下载工具编辑：程序博客网时间：2024/05/01 19:14

特征选择是指从一组给定的特征集中，按照某一准则选择出一组具有良好区分特性的特征子集。特征选择又称独立评估法，在进行特征选择时一般都是利用某种评价函数独立地对每个原始特征项进行评分，然后将它们按分值的高低排序，从中选取若干个分值最高的特征项。

特征选择实际包含两个方面：特征提取和特征选择。特征提取是一种将数据从高维空间到低维空间的变换，达到降维的目的；特征选择是指从一组特征中去除冗余或不相关的特征来降维。两者常联合使用。

特征选择的作用主要是降低计算开销和提高分类性能。即可以减小数据处理量、节省处理时间，减轻数据中噪声的影响，提高信息处理系统的性能。

良好的特征集一般具有以下几个特点：可区分性、可靠性、独立性、数量少。

特征选择的基本方法为：先产生特征子集（选择算法），然后对子集进行评价（评价标准）。

特征子集的形成方法有：穷举法、启发法、随机法。

评价函数可分为：

筛选器（评价函数与分类器无关）

封装器（采用分类器的错误概率作为评价函数）：距离测度、信息测度、相关性测度、一致性测度。

常见的特征提取方法有：主成分分析（PCA）、LDA（线性奇异分析）、独立分量分析（ICA）、神经网络、粗糙集属性约简等。而比较新的方法有：非线性降维方法、流形学习等，它们正成为特征选择的研究热点。

注：PCA与LDA的区别

PCA：非监督学习，把原始数据作为一类，使数据尽可能分开

LDA：有监督学习，已知两类数据的类别，使该两类尽可能分开