pca的最大方差理论解释

来源:互联网 发布:rhino mac授权码 编辑:程序博客网 时间:2024/06/05 19:51

写这个主要为了自己理解,内容都是参考博文:
http://www.cnblogs.com/jerrylead/archive/2011/04/18/2020209.html

一、数据预处理:

去均值化,使得样本数据的均值为0
方差归一化,保证每个特征的维度尺度近似(可以看出这里求方差没有减去均值,因为经过去均值化后,均值已经为0了)
其中是样例,共m个,每个样例有n维特征,也就是说是n维列向量。是第i个样例的第j个特征。是样例均值。是第j个特征的标准差。



二、最大方差理论:
在信号处理中认为信号具有较大的方差,噪声有较小的方差,信噪比就是信号与噪声的方差比,越大越好。
关于向量在某个方向投影的计算:

红点是样本,蓝点是在u方向上(这里u的模为1,是单位向量)的投影,则投影后的点离原点的距离(投影后向量的模)就是样本点和u的内积。
为什么投影后向量的模是它们的内积?考虑cos距离的计算:

现在,我们希望找到一个方向,使得数据在这个方向上的投影的方差最大。
由于样本点的均值为0(显然,其每一维特征的均值也为0),所以投影后的样本点均值还是0(相当于乘以相同的系数),因此方差为:

中间那部分就是样本特征的协方差矩阵(注意样本均值为0,所以不用减均值了,样本是n维列向量,得到的其实是nxn维的矩阵,一般方差计算是除以m-1,这里用的是m),关于协方差矩阵计算可以看这
表示要求的方差,表示中间的协方差矩阵,那么上式就变成了(写错了,应该是u)
由于u是单位向量,两边都左乘u,得到:
(写错了,应该是u)
可以看出,要求的方差就是协方差矩阵的特征值,而最优的方向u就是最大特征值(最大方差)对应的特征向量了
所以,只需要对协方差矩阵进行特征值分解,前k大的特征值对应的特征向量就是最佳的投影方向,而且是相互正交的。得到k个方向后,就可以通过以下变换得到投影后 k维的新的样本:

写这个主要为了自己理解,内容都是参考博文:
http://www.cnblogs.com/jerrylead/archive/2011/04/18/2020209.html











阅读全文
0 0
原创粉丝点击