特征选择与降维总结

来源:互联网 发布:网络教育统考报名网 编辑:程序博客网 时间:2024/04/19 14:02

                     特征选择

  特征选择是一个很重要的数据预处理过程,在现实的机器学习任务中,获得数据之后通常进行特征选择。

  进行特征选择的原因:

  (1)    维数灾难问题

  (2)    去除不相关特征,往往会降低学习任务的难度。

 

  如果没有任何领域知识作为先验假设,那就只好遍历所有可能的子集,然而在计算上是不可行的,或遭遇组合爆炸。常用的方法是:产生候选子集,评价之,基于评价结果,产生下一个候选子集。

  子集产生:前向、后向、双向。都是贪心的。如果不暴力穷举,这个问题是没法解决的。

  子集评价:信息增益。

  将特征子集搜索机制与子集评价机制相结合,即可得到特征选择方法。与决策树有点相似。

   常见的特征选择方法:过滤式、包裹式、嵌入式

 

  (1)    过滤式特征选择方法

   过滤式方法首先对数据集进行特征选择,然后再训练学习器,特征选择与后续学习器无关。

  (2)    包裹式过滤选择方法

  包裹式特征选择直接把最终将要使用的学习器的性能作为特征子集的评价标准。换言之,包裹式特征选择的目的就是为给定学习器选择最有利于其性能,“量身定做”的特征子集。包裹式特征选择比过滤式特征选择更好,但是由于在特征选择过程中,需要多次训练学习器,因此包裹式特征选择计算开销通常比过滤式特征选择大的多。

  LVW是典型的包裹式特征选择方法。它是在拉斯维加斯框架下使用随机策略来进行特征选择。并以最终分类器的误差为特征子集评价准则。算法思想:随机产生特征子集,交叉验证,进行准确率的判断。LVW是由于特征子集搜索使用了随机策略,而每次特征子集评价都需要训练学习器,计算开销很大,因此设置了算法停止条件控制参数。

  (3)    嵌入式选择与L1正则化

  在过滤式和包裹式特征选择方法中,特征选择与学习器训练过程有明显的区别:与此不同,嵌入式特征选择是将特征选择过程与学习器训练过程融为一体。

  两者在同一个优化过程中完成,即在学习器训练过程中自动完成了特征选择。

       L1范数的引入,不仅可以防止过拟合,还可以得到稀疏解,进行自动的特征选择。

 

 

                     降维

 (1)低维嵌入

   将高维数据映射到低维空间。

   如果要求原始空间中样本之间的距离在低维空间得以保持,那么就是MDS,多维缩放技术。

 

 (2)PCA

  样本中心化:样本中心化的意思其实就是将样本中的每一个元素减去样本的均值,使得样本数据在零点附近波动。

  PCA原理分析:将多个相关变量投影到另一组正交空间中,得到一组新的变量,使得新的变量具有最大的方差。(方差反映数据差异的程度,方差最大的方向对应信息量最大的方向)。

  算法流程:输入:数据集D,低维空间维数d

   (1)    对所有样本进行中心化。

   (2)    计算样本的协方差矩阵

   (3)    对协方差矩阵做特征值分解

   (4)    取最大的d歌特征值对应的特征向量

  投影矩阵就是(W1,W2,….Wd)

  降维后低维空间的维数通常由事先指定的,或者进行交叉验证指定。

  PS:在机器学习进行特征选择的时候,最大特征值对应的特征向量包含最多的信息量。如果某几个特征值很小,说明这几个方向上信息量很少,可以用来降维,即舍去了部分信息。舍去这部分信息是必要的:(1)舍去这部分信息之后,可以使得样本的采样密度增大,这正是降维的重要动机。(2)当数据受到影响时,最小的特征值对应的特征向量往往与噪声有关,将它们舍去能在一定程度上气道去燥的效果。


  (3)KPCA核化线性降维

        线性降维方法假设从高维空间到低维空间的函数映射是线性的。但是在现实任务中,往往需要非线性映射才能找到恰当的低维嵌入。非线性降维的一种常用方法就是基于核技巧对线性降维进行核化。

       原理:通过非线性映射将输入空间映射到高维特征空间,在高维特征空间做PCA分析。

 

 (4)LDA降维分析

       LDA思想非常朴素:给定训练样集,设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离。在对新样本进行分类时,将其投影到同样的这条直线上,再根据投影点的位置来确定新样本的分类。

  衡量指标:类间散度矩阵,类内散度矩阵。

  与PCA保持数据信息不同,LDA是为了使得降维后的数据点尽可能地容易被区分!

0 0
原创粉丝点击