机器学习_特征选择

来源:互联网 发布:淘宝服务订购 编辑:程序博客网 时间:2024/05/16 08:09

1.特征选择:特征很多,但是只有部分特征与当前任务有关,所以要选出来啦

2.剔除的特征:无关特征

                           冗余特征:冗余特征具有两面性,一方面去除他们会减轻学习负担,另一方面如果某个冗余特征恰好完成了学习任务的‘中间概念’,则有益。eg求体积。底面积相对长和宽为冗余

3.子集搜索:

【1】用先验知识来选择特征子集,可能没办法考虑周全

【2】假设没先验知识,只能暴力枚举,暴力枚举转化为树去解决

【3】产生两个问题;如何搜索p248/如何评价

4.子集评价;信息熵

【1】信息熵的来源:是概率事件的所带来信息的期望,代表事件的不确定性。

【2】信息的衡量之所以定义-log(pi),一方面要求信息量随概率单减(理解一下:概率越小所带来的信息量越多)另一方面信息量的可加性,两独立事件的所带来的信息量为他们各自的信息量之和

【3】把数据集想成一个抽取样本的随机事件,抽取一个样本带来的信息量去解决。

【4】注意:信息增益越大p249,意味着用特征子集分类前后信息量差值越大,特征子集评价越高

5.过滤式选择

【1】定义:先特征选择再训练学习器

【2】relief 特征选择方法的思想:特征本来就是用来分类的,所以可以用距离取度量特征。异类距离比同类距离越大,说明属性对样本的区分能力越高。

【3】此方法是基于所有的样本点计算得出的来的(大致体会一下数据流)

【4】relief的多分类的改进p250

6.包裹式选择

【1】包裹一词体现:直接将分类器的误差作为评价标准,为学习器选择最有利于性能的特征子集

【2】典型包裹式特征选择方法:lvw大致流程,首先随机参生特征子集,其次带入学习器并求出误差,迭代循环,求出误差最小的特征子集

7.交叉验证法

【1】确实检验学习器的性能时,用训练集计算肯定不太好,不代表泛化能力

【2】所以将数据分为两部分:训练集和验证集

8.嵌入式选择

【1】特征选择过程和学习器训练过程融为一体  eg .lasso即l1范数正则化

【2】l1正则化问题可以通过近端梯度下降法来解决p253

         近端一词体现该方法是近端梯度下降法的改进

9.问题

【1】枚举和算法树之间到底存在什么关系

【2】信息熵评价子集真的有效吗?概率又没有变

【3】拉斯维加斯方法和蒙特卡洛方法,理解有误的

【4】近端梯度下降法最后一步的过程并未推导,习题11.8

原创粉丝点击