机器学习_特征选择

来源：互联网发布：淘宝服务订购编辑：程序博客网时间：2024/05/16 08:09

1.特征选择：特征很多，但是只有部分特征与当前任务有关，所以要选出来啦

2.剔除的特征：无关特征

冗余特征：冗余特征具有两面性，一方面去除他们会减轻学习负担，另一方面如果某个冗余特征恰好完成了学习任务的‘中间概念’，则有益。eg求体积。底面积相对长和宽为冗余

3.子集搜索：

【1】用先验知识来选择特征子集，可能没办法考虑周全

【2】假设没先验知识，只能暴力枚举，暴力枚举转化为树去解决

【3】产生两个问题；如何搜索p248/如何评价

4.子集评价；信息熵

【1】信息熵的来源：是概率事件的所带来信息的期望，代表事件的不确定性。

【2】信息的衡量之所以定义-log（pi），一方面要求信息量随概率单减（理解一下：概率越小所带来的信息量越多）另一方面信息量的可加性，两独立事件的所带来的信息量为他们各自的信息量之和

【3】把数据集想成一个抽取样本的随机事件，抽取一个样本带来的信息量去解决。

【4】注意：信息增益越大p249，意味着用特征子集分类前后信息量差值越大，特征子集评价越高

5.过滤式选择

【1】定义：先特征选择再训练学习器

【2】relief 特征选择方法的思想：特征本来就是用来分类的，所以可以用距离取度量特征。异类距离比同类距离越大，说明属性对样本的区分能力越高。

【3】此方法是基于所有的样本点计算得出的来的（大致体会一下数据流）

【4】relief的多分类的改进p250

6.包裹式选择

【1】包裹一词体现：直接将分类器的误差作为评价标准，为学习器选择最有利于性能的特征子集

【2】典型包裹式特征选择方法：lvw大致流程，首先随机参生特征子集，其次带入学习器并求出误差，迭代循环，求出误差最小的特征子集

7.交叉验证法

【1】确实检验学习器的性能时，用训练集计算肯定不太好，不代表泛化能力

【2】所以将数据分为两部分：训练集和验证集

8.嵌入式选择

【1】特征选择过程和学习器训练过程融为一体 eg .lasso即l1范数正则化

【2】l1正则化问题可以通过近端梯度下降法来解决p253

近端一词体现该方法是近端梯度下降法的改进

9.问题

【1】枚举和算法树之间到底存在什么关系

【2】信息熵评价子集真的有效吗？概率又没有变

【3】拉斯维加斯方法和蒙特卡洛方法，理解有误的

【4】近端梯度下降法最后一步的过程并未推导，习题11.8

阅读全文

0 0