浅谈PCA(3)

来源:互联网 发布:coc蓝胖升级数据 编辑:程序博客网 时间:2024/06/08 14:54

        主要谈谈PCA的假设条件和缺点。

        PCA有以下几个假设条件:

        (1)线性(Linearity:基变换的条件,即新得到的正交基可以由之间基的线性组合得到。目前有研究将这个条件转换到非线性条件下,例如Kernel PCA。

        (2)大方差对应重要数据结构(Large variances have important structure:等同于另一个假设:数据对应高的信噪比。方差大对应重要的数据结构,同时对应低的噪声。这是一个很强的假设,但是有时确是不对的。

        (3)主成分之间正交(The principal components are orthogonal:这个假设使得PCA的求解可以采用线性代数分解技术实现,如特征值分解和SVD。

        PCA的缺点:

        (1)当样本点具有一些非线性性质时,采用PCA得到的降维结果无法反映出样本点之间所隐藏的非线性性质。

        (2)PCA能找到很好的代表所有样本点的方向,但这个方向对于分类未必是最有利的。

        (3)对PCA所要保持的主分量的个数的估计比较困难。虽然可以通过样本点中心化矩阵的相邻奇异值之间的比值大小、或者采用特征值所占百分比(例如大于85%)的方法来确定主分量个数,但是当奇异值大小变化比较平缓时,难以估计应该舍弃哪些分量。

        (4)在有些情况下,难以对PCA所保持的主分量的意义进行解释。例如降维结果中的负值。