ML—常见的特征选择方法

来源:互联网 发布:东方财富 数据接口 编辑:程序博客网 时间:2024/05/06 02:30

华电北风吹
天津大学认知计算与应用重点实验室
日期:2015/11/20

在统计分析中,由于事先并不知道什么特征与这个模式相关,而特征对能否正确分类又起到至关重要的作用,因此特征选择是统计学习中必不可少的一步。目前常用的特征选择方案总的来说可以分为基于统计的和基于模型的。基于统计的比如F值,信息增益等,可以对各个特征直接进行选择,不需要建模看模型好坏。基于模型的需要根据模型准确率等因素来逐步选择或者删除特征。

一、F值(方差分析)
适用范围:特征取值连续,有监督,分类和回归
F值能够作为特征选择的思路是:对于单个特征来说假设这个特征与类别标签是无关的,因此这个特征在各个类别下均值应该是相同的。在统计学上可以根据样本个数和样本类别个数构建F统计量,由对应的p值来决定是否拒绝这个假设。
在使用F值做特征选择的时候有两种特征选择方案:一是设定显著性水平p值,将特征对应p值小于设定的阀值p的特征作为有效特征;另一种是设定需要选择的特征个数N,根据F值排序选择F值最大的N个特征作为有效特征。

二、信息增益和基尼系数
使用范围:特征取值离散,有监督,分类和回归
熵表示了数据分布的不均衡程度。熵作为特征选择的思路是:对于单个特征,如果特征的不同取值里面,类别标签的纯度比较高的话,如果根据经验预测以后的话,这样预测比较可靠。

三、相关系数
使用范围:有监督,分类和回归
根据各个特征与导师信号的相关系数确定要选择的特征。相关系数大的特征应该更有助于识别这个模式。还有一种就是对现有的特征进行建模,根据残差与导师信号的相关系数进行特征选择。

四、距离
使用范围:有监督,分类
根据特征下,不同类别之间的距离选择距离最大的一些特征。

五、Least absolute shrinkage and selection operator(lasso)
基于线性回归,在最小二乘的目标函数上添加L1正则项(绝对值)。也可以用于多模特征选择(多任务学习)。

六、特征选择步骤
在特征选择过程中有前向逐步添加特征的特征选择方案,也有后向逐步删除特征的特征选择方案,也有将两者进行结合的混合特征选择方案,这些方案都是基于模型的特征选择方案。

参考博客:
干货:结合Scikit-learn介绍几种常用的特征选择方法
特征选择常用算法综述

0 0
原创粉丝点击