Python 主成分分析PCA

来源：互联网发布：系统端口设置在哪里编辑：程序博客网时间：2024/05/16 08:28

原文请参考：http://www.cnblogs.com/chenbjin/p/4200790.html点击打开链接

主成分分析（PCA）是一种基于变量协方差矩阵对数据进行压缩降维、去噪的有效方法，PCA的思想是将n维特征映射到k维上（k<n），这k维特征称为主元，是旧特征的线性组合，这些线性组合最大化样本方差，尽量使新的k个特征互不相关。

相关知识

1.协方差 Covariance

　　变量X和变量Y的协方差公式如下，协方差是描述不同变量之间的相关关系，协方差>0时说明 X和 Y是正相关关系，协方差<0时 X和Y是负相关关系，协方差为0时 X和Y相互独立。

　　协方差的计算是针对两维的，对于n维的数据集，可以计算C(n,2)种协方差。 n维数据的协方差矩阵的定义如下：
　　
Dim(x)表示第x维。

对于三维(x,y,z)，其协方差矩阵如下，可看出协方差矩阵是一个对称矩阵（symmetrical），其对角线元素为每一维的方差：
　

2.特征向量和特征值　

　　若 $AX=\lambda{X}$ ，则称 $\lambda$ 是A的特征值，X是对应的特征向量。可以这样理解：矩阵A作用在它的特征向量X上，仅仅使得X的长度发生了变化，缩放比例就是相应的特征值 $\lambda$ 。特征向量只能在方阵中找到，而且并不是所有的方阵都有特征向量，并且如果一个n*n的方阵有特征向量，那么就有n个特征向量。一个矩阵的所有特征向量是正交的，即特征向量之间的点积为0，一般情况下，会将特征向量归一化，即向量长度为1。

3.PCA过程

　　第一步，获取数据，下图中的Data为原始数据，一共有两个维度，可看出二维平面上的点。

　　下图是Data在二维坐标平面上的散点图：

　　第二步，减去平均值，对于Data中的每一维数据分别求平均值，并减去平均值，得到DataAdjust数据。

　　第三步，计算DataAdjust的协方差矩阵

　　第四步，计算协方差矩阵的特征向量和特征值，选取特征向量

　　特征值0.490833989对应的特征向量是（-0.735178656, 0.677873399），这里的特征向量是正交的、归一化的，即长度为1。

　　下图展示DataAdjust数据和特征向量的关系：

　　正号表示预处理后的样本点，斜着的两条线就分别是正交的特征向量（由于协方差矩阵是对称的，因此其特征向量正交），特征值较大的那个特征向量是这个数据集的主要成分（principle component）。通常来说，当从协方差矩阵计算出特征向量之后，下一步就是通过特征值，对特征向量进行从大到小的排序，这将给出成分意义的顺序。成分的特征值越小，其包含的信息量也就越少，因此可以适当选择。　

　　如果数据中有n维，计算出n个特征向量和特征值，选择前k个特征向量，然后最终的数据集合只有k维，取的特征向量命名为FeatureVector。