pca的最大方差理论解释

来源：互联网发布：rhino mac授权码编辑：程序博客网时间：2024/06/05 19:51

写这个主要为了自己理解，内容都是参考博文：

http://www.cnblogs.com/jerrylead/archive/2011/04/18/2020209.html

一、数据预处理：

去均值化，使得样本数据的均值为0

方差归一化，保证每个特征的维度尺度近似（可以看出这里求方差没有减去均值，因为经过去均值化后，均值已经为0了）

其中

是样例，共m个，每个样例有n维特征，也就是说

是n维列向量。

是第i个样例的第j个特征。

是样例均值。

是第j个特征的标准差。

二、最大方差理论：

在信号处理中认为信号具有较大的方差，噪声有较小的方差，信噪比就是信号与噪声的方差比，越大越好。

关于向量在某个方向投影的计算：

红点是样本，蓝点是在u方向上（这里u的模为1，是单位向量）的投影，则投影后的点离原点的距离（投影后向量的模）就是样本点和u的内积。

为什么投影后向量的模是它们的内积？考虑cos距离的计算：

现在，我们希望找到一个方向，使得数据在这个方向上的投影的方差最大。

由于样本点的均值为0（显然，其每一维特征的均值也为0），所以投影后的样本点均值还是0（相当于乘以相同的系数），因此方差为：

中间那部分就是样本特征的协方差矩阵（注意样本均值为0，所以不用减均值了，样本是n维列向量，得到的其实是nxn维的矩阵，一般方差计算是除以m-1，这里用的是m），关于协方差矩阵计算可以看这

用

表示要求的方差，

表示中间的协方差矩阵，那么上式就变成了

（写错了，应该是u）

由于u是单位向量，两边都左乘u，得到：

（写错了，应该是u）

可以看出，要求的方差

就是协方差矩阵

的特征值，而最优的方向u就是最大特征值（最大方差）对应的特征向量了

所以，只需要对协方差矩阵进行特征值分解，前k大的特征值对应的特征向量就是最佳的投影方向，而且是相互正交的。得到k个方向后，就可以通过以下变换得到投影后 k维的新的样本：

写这个主要为了自己理解，内容都是参考博文：

http://www.cnblogs.com/jerrylead/archive/2011/04/18/2020209.html

阅读全文

0 0