流形学习存在的缺点

来源:互联网 发布:淘宝导航条改颜色 编辑:程序博客网 时间:2024/04/30 08:00

流形学习存在的缺点  

 

当前的流形学习方法存在的主要不足有:

(1) 流形学习算法计算复杂度高

现有流形学习的一个很大瓶颈就是计算复杂度太高,这阻碍了其在实际中的应用。虽然其对非线性数据具有较好的降维效果,但如何有效降低计算量,甚至推广其线性化算法是一个研究热点。线性化是一个很好的方法,但是线性化以后对于高度的非线性问题也一样束手无策。如何得到可处理非线性数据的线性化流形学习方法值得进一步研究。

(2) 流形学习算法的分类能力较弱

在处理分类问题时,多数情况下流形学习算法的性能较传统方法要差。因为,流形学习算法在恢复内在不变量时采用了局部邻域思想,算法本身的稳定性与邻域选择有关,如何在分类意义下获得适当的邻域参数需要进一步的研究。另外,算法中采用了k-NN来获得流形结构在观测空间的有限描述,这一方法假定了数据集不存在异常噪声,如果噪声较大时,算法可能覆盖过多的非支撑域以外的空间,从而使得随后的分类算法产生错误的几何投影距离。

(3) 本征维数的估计

我们对流形学习方法的非参数化问题进行了研究,如何自适应的确定流形学习算法中需要的参数,而不是依据经验或人为设定,也是需要解决的问题。在非线性降维过程中,原始数据本征维数d都是由经验已知或人为设定的,其设定值的大小对低维空间的映射结果有很大影响。d值过大使映射结果含有过多噪声;d值过小,本来不同的点在低维空间可能会彼此交叠。

目前本征维数的估计方法主要分为以下三种:(1)特征值或映射方法,(2)几何学习方法,(3)统计学习方法。

(4) 增量学习

目前的大部分流形学习算法只定义在给定的数据集上,通常算法只能得到给定数据集在低维空间中的表示,而不能得到从高维空间到低维空间的非线性映射关系。缺少这一映射关系将无法在不重新构造图的情况下计算新样本的低维表示。如何根据新输入的样本修改映射关系而不重新计算,可以节约大量的计算时间和存储空间。

国际上已经有很多学者开始关注这一问题的研究,Law M等提出了一种增量Isomap算法,只是修改了测地距离的计算方式,节省了一定的时间,但对于算法本身并没有好的改进;OlgaK等人在LLE基本算法的基础上提出了一种增量LLE算法以解决样本外问题。

(5) 噪声流形学习问题

目前的大部分流形学习算法在构造邻域图时采用了kNN准则来获得流形结构在观测空间的有限描述。这一方法假定了数据集不存在异常噪声,如果噪声较大时,算法可能覆盖过多的非支撑域以外的空间,从而使得随后的分类算法产生错误的几何投影距离。考虑流形学习与全局分析方法的互补性,现有的全局分析方法如主成分或主曲线等在这一方面具有一定的优势,所以在机器学习和模式识别等领域,如何将两者有机地结合起来,互补缺陷,将是一个好的研究方向。当观测数据是对一个光滑流形较好的采样时,使用非线性降维可以找出其内在本质的流形分布。但是,在实际的高维采样数据中由于各种因素经常存在噪声,使得映射到低维空间后会出现对原始数据结构的扭曲和变形。

(6) 寻找淹没子流形的问题

现在的大部分流形学习算法是基于单一流形的假设前提。所以当数据集中存在多个流形时,流形学习算法将失效。它们只能被分别单独应用在各个“聚类’’的数据上。而对于模式识别问题,人们关心的是由多个类别构成的数据集中存在着怎样的几何结构。通常,一个类别对应着一个流形,不同类别对应于位于不同位置的流形。不同类别之间的区别在于它们在高维空问所占据的位置不同。面对这种任务,需要一种能同时观察这些不同类别中流形的流形学习算法。目前这一问题还没能得到很好的解决。

(7) 流形重构与有监督学习

现有的流形学习方法主要应用于聚类与可视化,这是由于数据降维的点对点嵌入性质决定的。但由于难以得到流形空间与其降维空间的对应映射函数关系,使其难以广泛用于模式识别和分类等问题。如何找到两个空间间的映射关系,包半监督流形学习算法研究和应用括线性与非线性映射关系,以重构流形是监督与半监督学习需要解决的关键问题之一。如果能得到数据降维中观测空间到特征空间的映射,则以训练数据划分空间对测试数据进行分类的有监督流形学习将成为可能。