ML—常见的特征选择方法
来源:互联网 发布:东方财富 数据接口 编辑:程序博客网 时间:2024/05/06 02:30
华电北风吹
天津大学认知计算与应用重点实验室
日期:2015/11/20
在统计分析中,由于事先并不知道什么特征与这个模式相关,而特征对能否正确分类又起到至关重要的作用,因此特征选择是统计学习中必不可少的一步。目前常用的特征选择方案总的来说可以分为基于统计的和基于模型的。基于统计的比如F值,信息增益等,可以对各个特征直接进行选择,不需要建模看模型好坏。基于模型的需要根据模型准确率等因素来逐步选择或者删除特征。
一、F值(方差分析)
适用范围:特征取值连续,有监督,分类和回归
F值能够作为特征选择的思路是:对于单个特征来说假设这个特征与类别标签是无关的,因此这个特征在各个类别下均值应该是相同的。在统计学上可以根据样本个数和样本类别个数构建F统计量,由对应的p值来决定是否拒绝这个假设。
在使用F值做特征选择的时候有两种特征选择方案:一是设定显著性水平p值,将特征对应p值小于设定的阀值p的特征作为有效特征;另一种是设定需要选择的特征个数N,根据F值排序选择F值最大的N个特征作为有效特征。
二、信息增益和基尼系数
使用范围:特征取值离散,有监督,分类和回归
熵表示了数据分布的不均衡程度。熵作为特征选择的思路是:对于单个特征,如果特征的不同取值里面,类别标签的纯度比较高的话,如果根据经验预测以后的话,这样预测比较可靠。
三、相关系数
使用范围:有监督,分类和回归
根据各个特征与导师信号的相关系数确定要选择的特征。相关系数大的特征应该更有助于识别这个模式。还有一种就是对现有的特征进行建模,根据残差与导师信号的相关系数进行特征选择。
四、距离
使用范围:有监督,分类
根据特征下,不同类别之间的距离选择距离最大的一些特征。
五、Least absolute shrinkage and selection operator(lasso)
基于线性回归,在最小二乘的目标函数上添加L1正则项(绝对值)。也可以用于多模特征选择(多任务学习)。
六、特征选择步骤
在特征选择过程中有前向逐步添加特征的特征选择方案,也有后向逐步删除特征的特征选择方案,也有将两者进行结合的混合特征选择方案,这些方案都是基于模型的特征选择方案。
参考博客:
干货:结合Scikit-learn介绍几种常用的特征选择方法
特征选择常用算法综述
- ML—常见的特征选择方法
- ML—常见的特征提取方法
- 一些常见的特征选择方法
- ML—F值与特征选择
- 特征选择的方法
- 特征选择的方法
- 特征选择-常见的搜索算法
- 常用的特征选择方法
- 特征选择的一些方法
- 斯坦福ML公开课笔记10——VC维、模型选择、特征选择
- 斯坦福ML公开课笔记10——VC维、模型选择、特征选择
- 基于sklearn的特征选择方法
- 几种常用的特征选择方法
- 工程中常用的特征选择方法
- 几种常用的特征选择方法
- 特征选择的基本方法概述
- 几种常用的特征选择方法
- 几种常用的特征选择方法
- 使用Java的BlockingQueue实现生产者-消费者
- CentOS 折腾记事
- 物理路径、相对路径、绝对路径、根路径
- JSP中文乱码问题终极解决方案
- Java string首字母大写(不裁剪不用替换)
- ML—常见的特征选择方法
- 【JavaService】部署Java jar为Windows后台服务
- 磁盘压缩卷新建分区
- 纹理缓存
- 企业证书重签名发布APP(支持APNS)
- coderforce 489ASwapSort
- UIScrollView (API+循环滚动)
- 1.1.1.6、Arch Linux
- 整理:深度学习 vs 机器学习 vs 模式识别