【机器学习算法】流形学习笔记一:Isomap

来源:互联网 发布:迅龙数据恢复免费版 编辑:程序博客网 时间:2024/05/16 19:34

流形学习是一类借鉴了拓扑流行概念的降维方法.

首先先看一些定义:
流形局部具有欧几里得空间性质的空间,能用欧氏距离来进行距离计算.
同胚 在拓扑学中,两个流形,如果可以通过弯曲、延展、剪切(只要最终完全沿着当初剪开的缝隙再重新粘贴起来)等操作把其中一个变为另一个,则认为两者是同胚的.

故也可以称流形是在局部与欧式空间同胚的空间。这给降维方法带来了很大的启发:若低维流形嵌入到高维空间中,则数据样本在高维空间的分布虽然看上去非常复杂,但在局部上仍具有欧式空间的性质,因此,可以容易地在局部建立将为映射关系,然后再设法将局部映射关系推广到全局.

等度量学习Isomap算法

测地线距离 空间中两点的局域最短或最长路径.

Isomap认为低维流形嵌入到高维空间之后,直接在高维空间中计算直线距离具有误导性,因为高维空间中的直线距离在低维嵌入流形上式不可达的.下图为高维数据分布图,虚线为高维空间中的直线距离,实线为相同两点的测地线距离.


高维数据分布
图1:高维数据的分布

利用流形可以进行欧氏距离计算的性质,对每个点基于欧氏距离找出其近邻点,于是可以建立一个近邻连接图,图中近邻点之间存在连接,而非近邻点不存在连接,于是计算两点之间测地线距离的问题就转变为计算近邻连接图上两点之间的最短路径问题.


这里写图片描述
图2:数据的近邻连接图

近邻图的构建方法:
· k近邻 指定近邻点个数k,欧氏距离最近的k个点为近邻点.
· ϵ 近邻 指定距离阈值ϵ,距离小于ϵ 就为近邻点.


这里写图片描述
图3:近邻连接图的低维投影

图3中蓝线为低维投影后两点之间的直线距离,红线为近邻连接图上相同两点间的最短路径. 原理上讲,我们利用红线近似蓝线.

在近邻连接图上计算两点间的最短路径,可采用Dijkstra算法或Floyd算法,得到任意两点的距离后,可以通过低维缩放MDS的方法来获得样本点在低维空间的坐标.