PCA和SVD降维

来源：互联网发布：即时战略知乎编辑：程序博客网时间：2024/06/06 08:34

1 问题引入

前边几章我们学习了很多机器学习的算法，它们在小规模数据上都很有效，但在实际生活中，我们的数据集可能是巨大的，在大规模、多维度数据上运行算法效果往往没有那么好，原因之一是数据的维度太大，有些特征可能对我们的算法决策没有太大影响，或是一些噪声产生干扰。本章我们会提前对数据进行降维处理，只保留数据集中最重要的特征，对数据进行简化，即数据的预处理阶段。

2 PCA

2.1 工作原理

PCA-主成分分析法，是目前应用最广泛的降维技术，通过对原坐标系进行转换，减少原来的坐标轴数量，达到降维的目的。选择的准则是，第一个坐标轴（或方向）选择原始数据中方差最大的方向，第二个坐标轴在和第一个坐标轴正交的前提下，选择方差次大的方向，该过程一直重复，我们会发现大部分的方差（信息）都包含在前几个坐标轴中，所以我们可以忽略余下的坐标轴，即完成了数据的降维。

2.2 数学原理

X是原数据，Y是降维后的数据，P是基向量（特征向量），C是原协方差矩阵，D是对角矩阵（新协方差矩阵）。