机器学习_特征选择
来源:互联网 发布:淘宝服务订购 编辑:程序博客网 时间:2024/05/16 08:09
1.特征选择:特征很多,但是只有部分特征与当前任务有关,所以要选出来啦
2.剔除的特征:无关特征
冗余特征:冗余特征具有两面性,一方面去除他们会减轻学习负担,另一方面如果某个冗余特征恰好完成了学习任务的‘中间概念’,则有益。eg求体积。底面积相对长和宽为冗余
3.子集搜索:
【1】用先验知识来选择特征子集,可能没办法考虑周全
【2】假设没先验知识,只能暴力枚举,暴力枚举转化为树去解决
【3】产生两个问题;如何搜索p248/如何评价
4.子集评价;信息熵
【1】信息熵的来源:是概率事件的所带来信息的期望,代表事件的不确定性。
【2】信息的衡量之所以定义-log(pi),一方面要求信息量随概率单减(理解一下:概率越小所带来的信息量越多)另一方面信息量的可加性,两独立事件的所带来的信息量为他们各自的信息量之和
【3】把数据集想成一个抽取样本的随机事件,抽取一个样本带来的信息量去解决。
【4】注意:信息增益越大p249,意味着用特征子集分类前后信息量差值越大,特征子集评价越高
5.过滤式选择
【1】定义:先特征选择再训练学习器
【2】relief 特征选择方法的思想:特征本来就是用来分类的,所以可以用距离取度量特征。异类距离比同类距离越大,说明属性对样本的区分能力越高。
【3】此方法是基于所有的样本点计算得出的来的(大致体会一下数据流)
【4】relief的多分类的改进p250
6.包裹式选择
【1】包裹一词体现:直接将分类器的误差作为评价标准,为学习器选择最有利于性能的特征子集
【2】典型包裹式特征选择方法:lvw大致流程,首先随机参生特征子集,其次带入学习器并求出误差,迭代循环,求出误差最小的特征子集
7.交叉验证法
【1】确实检验学习器的性能时,用训练集计算肯定不太好,不代表泛化能力
【2】所以将数据分为两部分:训练集和验证集
8.嵌入式选择
【1】特征选择过程和学习器训练过程融为一体 eg .lasso即l1范数正则化
【2】l1正则化问题可以通过近端梯度下降法来解决p253
近端一词体现该方法是近端梯度下降法的改进
9.问题
【1】枚举和算法树之间到底存在什么关系
【2】信息熵评价子集真的有效吗?概率又没有变
【3】拉斯维加斯方法和蒙特卡洛方法,理解有误的
【4】近端梯度下降法最后一步的过程并未推导,习题11.8
- 机器学习_特征选择
- 机器学习--特征选择
- 机器学习:特征选择
- 机器学习-特征选择
- 机器学习-->特征选择
- 机器学习 特征选择
- 机器学习-特征选择
- 机器学习-R-特征选择
- 机器学习之特征选择
- 机器学习中的特征选择
- 机器学习之 特征选择
- 机器学习特征选择方法
- 机器学习之特征选择
- 机器学习中特征选择
- 机器学习-文本特征选择
- 机器学习中的特征选择
- 机器学习 特征选择概述
- 【机器学习】特征选择与特征转换
- 洛谷p1330 封锁阳光大学-二分图染色
- 教你怎么编写高效的JSON工具类
- 【Spring】专业术语了解(二)
- 如何科学地蹭热点:用python爬虫获取热门微博评论并进行情感分析
- 用 JavaScript 实现发布/订阅模式
- 机器学习_特征选择
- 数据库优化--编码阶段
- Hot Air Ballooning
- PAT 甲级 1074. Reversing Linked List (25)
- 分布式系统中生成全局ID的总结与思考
- 探长需要你!我们还上班!
- 堵在路上的你,真的要好好补一补了……
- 利用微信监管MXNet训练
- 【Spring】六大模块功能(三)