【读书笔记】特征选择与稀疏学习

来源:互联网 发布:linux 开启端口监听 编辑:程序博客网 时间:2024/06/05 06:31

本文为《机器学习》第11章《特征选择与稀疏学习》的读书摘要和总结。

子集搜索和评价

从给定的特征集合中选取相关特征的过程称为“特征选择”,在实际中,拿到数据首先进行特征选择然后再进行训练。特征选择本身也作为一种变相的降维方案来解决属性过多导致的维数灾难问题。由其他属性可推导出来的‘冗余特征‘并不都是无用的,有时也能直接减轻学习负担,本章节暂时不考虑有冗余特征的情况。

在所有特征中抽取能表示所有重要信息的最小子集需要不断进行子集的评价和候选子集的产生来完成(公式见P248)。

通常情况下有过滤式、包裹式和嵌入式3种特征选择方法。

过滤式选择方法

用一个“相关统计量”(公式见P250)中的每个分量来代表该初始特征参加特征间的选拔大赛。

包裹式选择方法

该方法直接将最终学习器的性能作为评价特征子集划分的好坏准则,效果好但开销大(算法见P251),但不同于一般特征选择算法,该方法随机产生特征子集。若特征较多时则可能运行很长时间都得不到理想解。

0 0