数据预处理：PCA原理推导

来源：互联网发布：淘宝类目网址编辑：程序博客网时间：2024/05/16 01:34

请点击上面公众号，免费订阅。　

《实例》阐述算法，通俗易懂，助您对算法的理解达到一个新高度。包含但不限于：经典算法，机器学习，深度学习，LeetCode 题解，Kaggle 实战。期待您的到来！

—

回顾

昨天推送了机器学习数据预处理的基本介绍：

主成分分析的背景；
主成分选取的必要性；
什么是数据的主成分；
作为引入，先从概念上说了说如何选取主成分，大概要根据每个特征的方差。

有需要了解的，请参考：机器学习数据预处理：数据降维之PCA

今天，尝试推导下如何选择主成分。基本任务便是拿到一堆数据，它有 n 个特征，现在要从中选择 k 个特征，作为主特征。

—

点在某个轴上的投影

如下图所示，我们有2个特征组成了两个不同的向量，一个表示为向量 i = (1,0) ，另一个表示为向量 j= (0,1) 。显然向量 i 和 j 是线性无关的，在 i 和 j 组成的线性空间中，任意元素总可以由向量 i 和 j 表示，所以 i 和 j 就称为线性空间的一个基，维数等于组成它的向量个数等于2。

定义了以上线性空间后，那么任意一个样本点都可以由这个基唯一确定，并且这样才使得样本点 (3,2)有了真正的基石。那么 (3,2) 是怎么由 i 和 j 确定的呢？容易看出： (3,2) = 3 * (1,0) + 2 * (0,1) 唯一确定。

然后再进一步，发现样本点 (3,2)在基石 i = (1,0) 上的分量为3，并且可以看成是在 i 上的投影，这个投影可以由点 (3,2) 确定的向量点乘基石向量 (1,0)得到，就这样实现了（3,2）在某个向量上的投影。

扩展开，某个点在某个轴上的投影，可以表示为这个向量点乘这个轴的方向向量。

—

选取第一主成分原理推导

昨天的推送中说到，高一101班的学生语数外成绩，随机取样了5个样本，还记得语文的分数成绩很均匀，几乎没有拉开差距，所以对最终的排名影响可以说是很小，在此简化起见，直接忽略这个维度，只考虑2个特征维度：数学和外语成绩，已经将3维降为2维，但是我们还是不满意，想继续降成1个维度，那么确定这个维度的方向，也就是第一主成分的方向就是接下来的主要目标。

如下图，数学成绩和外语成绩的变动范围都挺大的，我们在上图画出了2个第一主成分可能的大致方向，哪个颜色表示的方向更有可能接近第一主成分的方向呢？