机器学习之 特征选择
来源:互联网 发布:三类人员网络继续教育 编辑:程序博客网 时间:2024/05/21 09:34
机器学习过程中,特征选择是避免维数灾难和减低学习难度的有效途径。特征选择的过程,即为选择对当前学习任务有用的属性(相关特征)和去除无用属性(冗余特征)的过程。那么,如何选择有用的特征子集以及如何评价相对好的特征子集是特征选择的关键步骤。
1、子集搜索
如果训练样本有
Forward Search
Input:training setD ,features set;
Output:features subsetF ;
start withF=∅ ;
Repeat{
(1)for i=1,2,⋯,n .Try adding featurei toF .
evaluate F∪ {i };
(2)Set F=F∪ {best feature found in (1) }
Output features subset.
以上搜索方式称为前向搜索,在(1)中evaluate的过程我们可以通过交叉验证的方式进行,也可以使用后面提到的子集评价方法直接选择。后向搜索指从完整的特征集开始,每次尝试去掉一个无关特征,以逐渐减少特征的策略进行特征搜索。
2、子集评价
我们通常通过信息增益,信息增益比和基尼指数等指标衡量特征对训练集分类的好坏程度。这里先介绍熵的概念。熵在信息论和统计学中度量随机变量的不确定性。设
其中
条件熵:设有随机变量
其中
其中,
信息增益:表示得知特征
一般地,熵
以信息增益作为划分训练数据集的特征,存在偏向于选择取值较多的特征的问题,为避免这种情况,信息论中引入信息增益比对这一问题进行校正。
信息增益比:特征
其中
基尼指数:分类问题中,假设有
3、特征选择方法
常用的特征选择方法有过滤式选择(filter)、包裹式选择(wrapper)以及嵌入式选择(embedding),可参见周志华老师的《机器学习》,以上内容我只是为了coding决策树所总结。
- 机器学习之特征选择
- 机器学习之 特征选择
- 机器学习之特征选择
- 机器学习 特征工程之特征选择
- 机器学习 特征工程之特征选择
- 机器学习之特征工程-特征选择
- 机器学习:文本挖掘之特征选择
- 机器学习之文本特征选择
- 机器学习:特征工程之特征选择和学习
- 机器学习--特征选择
- 机器学习:特征选择
- 机器学习-特征选择
- 机器学习-->特征选择
- 机器学习 特征选择
- 机器学习-特征选择
- 机器学习——特征工程之特征选择
- 机器学习-R-特征选择
- 机器学习中的特征选择
- Alternativa3D学习笔记之HelloWorld
- Android 高版本API方法在低版本系统上的兼容性处理
- cornerstone创建分支与合并代码方法整理
- mac系统如何显示和隐藏文件 和 删除SVN隐藏文件
- Sql Server 具有可更新订阅的事务发布-业务升级
- 机器学习之 特征选择
- Jquery
- NumPy简明教程(二、数组1)
- jni的两种方式
- VC++库函数PathRemoveFileSpec() 使用说明
- 如何使用Dockerfile构建镜像
- windows7下面新建以 "."开头的文件和文件夹
- 微信之后台设置分享标题分享给朋友
- laravel mp3