PCA主成分分析推导

来源:互联网 发布:php死循环怎么办 编辑:程序博客网 时间:2024/05/16 06:03

概览

PCA主成分分析,是一种数据的降维方法。多维数据,如果能找到一个平面,使得数据在这个平面的投影的方差最大,则说这个平面是这个数据的主成分。算得数据在这个平面的投影是降维后的数据。

推导过程

矩阵X是m行 * n列数据,U是n行向量:
这里写图片描述
若找到合适的U,使得X点乘U(即X在U上投影)得到的数方差最大。则称向量U是X的主方向(或主成分)。
设X在U 方向上的投影为Z,则有方差Var(Z),将Var(Z)中心化,均值为0。则最大方差Max(Var(Z)):
这里写图片描述

有约束下求极值问题,用拉格朗日乘子法,得到关于U的等式L(U,γ),等式对U求导,使其等于0。
这里写图片描述

最大特征max(γ)值对应的特征向量既是所求特征向量。

启示

PCA的底层是比较方差,所以使用于连续变量。对标签类应该效果不佳。

PCA的应用可以参考这里,官方文档的详细翻译。
推导参考:小象学院ML五期—13

这是一篇新人的学习的总结,如有错误欢迎指正

原创粉丝点击