机器学习——特征工程之流形学习

来源:互联网 发布:淘宝百丽是正品吗 编辑:程序博客网 时间:2024/06/11 05:09

一、前言

1、流形:局部与欧式距离同胚的空间,即它在局部具有欧式空间的性质,能用欧式距离进行距离计算

2、降维思想:低维流形嵌入高维空间,整体复杂但局部保持欧式空间性质,可在局部建立降维映射关系,再将该局部映射关系推广的全局以达到降维效果

3、著名的两种流形学习方法:等度量映射Isomap、局部线性嵌入LLE

二、等度量映射

1、基本出发点:低维流形嵌入高维空间之后,直接在高维空间中计算直线距离具有误导性,因为高维空间中的直线距离在低维嵌入流形上是不可达的

2、测地线距离:低维嵌入流形上两点的距离,即该两点之间的本真距离,而非两点在高维空间中的直线距离


3、思路:利用流形在局部上与欧式空间同胚这个性质,对每个点基于欧式距离找出近邻点,建立一个近邻连接图,测地线距离就转变为该图上两点之间的最短路径问题。

4、最短路径算法:单源最短路径Dijkstra算法和Floyd算法

5、算法流程


    a) MDS(Multiple Dimensional Scaling,多维缩放)算法为低维嵌入的一种经典的降维方法。

    b) 对于新样本,我们通常训练一个回归学习器对新样本的低维空间坐标进行预测(权宜之计)

6、近邻图构建

    a) K近邻图:指定近邻点个数,例如欧式距离最近的k个点为近邻点,以此建立近邻图

    b) 近邻图:指定距离阈值,距离小于的点被认为是近邻点,以此构建近邻图

7、可能出现的问题

    a) “短路”问题:近邻范围过大,距离远的点也被误认为近邻点

    b) “断路”问题:近邻范围过小,有些区域可能与其他区域不存在连接

三、局部线性嵌入

1、局部线性嵌入(Locally Linear Embedding, LLE)试图保持邻域内样本之间的线性关系,即LLE希望在低维空间中保持关系: x_i=w_{ij} x_j+w_{ik} x_k+w_{il} x_l


2、公式推导

    a) 计算线性重构系数的目标函数:

    b) 有闭式解: w_{ij}=(∑_{kϵQ_i}C_{jk}^{-1})/(∑_{l,sϵQ_i}C_{ls}^{-1} ) ,其中 C_{jk}=(x_i-x_j )^T (x_i-x_k )

    c) 根据LLE优化目标,可得同形目标函数:,其中  z_i 为 x_i 的低维坐标

    d) 矩阵形式重写:,其中 Z=(z_1,z_2,⋯z_m ) , M=(I-W)^T (I-W)

    e) 上式对M进行特征值分解,提取最小的前k个特征值对应的特征向量组成的矩阵即 Z^T

3、算法流程


原创粉丝点击