《机器学习》阅读心得——十一、特征选择和稀疏学习
来源:互联网 发布:教师网络研修收获 编辑:程序博客网 时间:2024/06/04 23:33
十一、特征选择和稀疏学习
11.1 子集搜索和评价
对一个学习任务来说,给定属性集,其中有些属性可能很关键,另一些属性可能没什么用,我们将属性称为“特征”,对当前学习任务有用的属性称为“相关特征”,没什么用的属性称为“无关特征”。从给定的特征集中选出相关特征子集的过程,称为“特征选择”。
特征选择是一个重要的“数据预处理”的过程,在现实机器学习任务中,获得数据之后通常先进行特征选择,此后再训练学习器。这里有两个重要原因,一个是避免维数过多,出现维数灾难问题;另一个是去除不相干特征往往会降低学习任务的难度。
在特征选择过程中,必须注意不丢失重要特征。给定数据集,若学习任务不同,则相关特征很可能不同,因此,特征选择中所谓的“无关特征”是指与当前学习任务无关。有一类特征称为“冗余特征”,它们所包含的信息能从其他特征中推演出来。去除冗余特征会减轻学习过程中的负担,但有时冗余特征的存在会降低学习任务的难度。确切的说,若某个冗余特征恰好对应了完成学习任务所需的“中间概念”,则该冗余特征是有益的。
欲从初始的特征集合中选取一个包含了所有重要信息的特征子集,可行的做法是产生一个“候选子集”,评价出它的好坏,基于评价结果产生下一个候选子集,通过迭代,找到最好的候选子集。这里涉及到如何搜索子集和如何评价子集的问题,简介如下:
第一个环节是“子集搜索”,给定特征集合
第二个环节是“子集评价”。给定数据集
信息增益Gain(A)越大,意味着特征子集A包含的有助于分类的信息越多,于是,对每个候选特征子集,我们可基于训练数据集D来计算其信息增益,以此作为评价准则。
更一般的,特征子集A实际上确定了对数据集D的一个划分,每个划分区域对应着A上的一个取值,而样本标记信息Y对应着D的真实划分,通过估算这两个划分的差异,就能对A作出评价。与Y对应的划分的差异越小,则说明A越好。
将特征子集搜索机制和子集评价相结合,即可得到特征选择方法。例如将前向搜索和信息熵相结合,这与决策树算法非常相似。常见的特征选择方法可以分为三类:过滤式、包裹式、嵌入式。
11.2 过滤式选择
过滤式方法先对数据集进行特征选择,然后再训练学习器,特征选择过程与后续学习无关。这相当于先用特征选择来对初始特征进行过滤,再用过滤后的特征来训练模型。
Relief是一种著名的过滤式特征选择方法。该方法设计了一个“相关统计量”来度量特征的重要性。该统计量是一个向量,其每个分量分别对应于一个初始特征,而特征子集的重要性则由子集中每个特征所对应的相关统计量分量之和来确定。于是最终只需要一个阈值
Relief(Relevant Features)的关键是如何确定相关统计量。给定训练集
其中
由上式可以看出,若
11.3 包裹式选择
与过滤式选择不考虑后续学习不同,包裹式特征选择直接把最终将要使用的学习器的性能作为特征子集的评价准则。换言之,包裹式特征选择的目的就是为给定学习器选择最有利于其性能、“量身定做”的特征子集。
一般来说,由于包裹式特征选择方法直接针对给定学习器进行优化,因此从最终学习器性能来看,包裹式特征选择比过滤式特征选择更好,但另一方面,由于在特征选择过程中需多次训练学习器,因此包裹式特征选择的计算开销通常比过滤式特征选择大得多。
LVW(Las Vegas Wrapper)是一个典型的包裹式特征选择方法,它在拉斯维加斯方法下使用随机策略来进行子集搜索,并以最终分类器的误差为特征子集评价准则。由于LVW算法中特征子集搜索采用了随机策略,而每次特征子集评价都需要训练学习器,计算开销很大。当初始特征数很多时,若有运行时间限制,则有可能给不出解。
11.4 嵌入式选择与L1 正则化
嵌入式特征选择是将特征选择过程与学习器训练过程融为一体,两者在同一个优化过程中完成,即在学习器训练过程中自动的进行了特征选择。
给定数据集
当样本特征很多,而样本数相对较少时,式(11.5)容易陷入过拟合。为了缓解过拟合问题,可对式(11.5)引入正则化项。若使用
其中正则化参数
11.5 稀疏表示与字典学习
不妨把数据集D考虑成一个矩阵,每行对应于一个样本,每列对应于一个特征。特征选择所考虑的问题是特征具有“稀疏性”,即矩阵中的许多列与当前学习任务无关,通过特性选择去除这些列,则学习器训练过程仅需在较小的矩阵上进行,学习任务的难度有可能降低,学得模型的可解释性也会提高。
现在我们考虑另外一种可能性,D所对应的矩阵中存在很多零元素,但这些零元素并不是以整列、整行形式存在。当样本具有这样的稀疏表达形式时,对学习任务来说具有不少好处。它能够使得不少问题变得线性可分,并且存储开销也很小。
因此,在一般的学习任务中,我们需学习出这样一个“字典”,为普通稠密表达的样本找到合适的字典,将样本转换为合适的稀疏表达形式,从而使得学习任务得以简化,模型复杂度得以降低,通常称为“字典学习”,也称为“稀疏编码”。
给定数据集
其中
首先在第一步,我们固定住字典B,将上式按照分量展开,可看出其中不涉及
第二步,以
其中
11.6 压缩感知
压缩感知是为了解决当收到信息有损失时,能否精确的重构出原信号的问题。假定有长度为m的离散信号x,不妨假定我们以远小于奈奎斯特采样定理要求的采样率进行采样,得到长度为n的采样后信号
其中
不妨假设存在某个线性变换
若能根据y恢复出s,则可以通过
有趣的是,若
事实上,在很多应用中均可获得具有稀疏性的s。例如图像或声音的数字信号通常在时域上不具有稀疏性,但经过傅里叶变换、余弦变换、小波变换等处理后却会转换为频域上的稀疏信号。
与特征选择、稀疏表示不同,压缩感知关注的是如何利用信号本身所具有的稀疏性,从部分观测样本中恢复原信号。通常认为,压缩感知分为“感知测量”和“重构恢复”这两个阶段。“感知测量”关注如何对原始信号进行处理以获得稀疏样本表示,“重构恢复”关注的是如何基于稀疏性从少量观测中恢复原信号。在谈到压缩感知时,通常就是在谈论重构恢复。
- 《机器学习》阅读心得——十一、特征选择和稀疏学习
- 机器学习笔记(十一)特征选择和稀疏学习
- [读书笔记]机器学习-11章-特征选择和稀疏学习
- 读书笔记《机器学习》:第十一章:特征选择与稀疏学习
- 【机器学习】特征选择与稀疏学习总结
- 特征选择与稀疏学习
- 机器学习--特征选择
- 机器学习:特征选择
- 机器学习-特征选择
- 机器学习-->特征选择
- 机器学习 特征选择
- 机器学习-特征选择
- 机器学习——特征工程之特征选择
- 机器学习知识点(二十一)特征选择之岭回归和LASSO
- 机器学习:特征工程之特征选择和学习
- 机器学习中的特征选择和优缺点
- 《机器学习》阅读心得——八、集成学习
- 机器学习(周志华) 参考答案 第十一章 特征选择与稀疏学习 11.1
- Linux多任务编程(一)---任务、进程、线程
- 模拟进程队列管理——进程入队
- Leetcode121 Best Time to Buy and Sell Stock(买卖股票的最佳时机1)
- JAVA中反射
- 多线程
- 《机器学习》阅读心得——十一、特征选择和稀疏学习
- Android源码之路(二.环境配置与整编)
- AndroidStudio中TextView规范
- SQL语句使用02------select语法
- java基础复习2 选择&循环
- Java的基本类型和引用类型
- 浅析SQL Server在可序列化隔离级别下,防止幻读的范围锁的锁定问题
- Kotlin学习(3):习惯用法
- cobbler实现批量部署Linux服务器(CentOS7.3含自定义安装)