图文并茂的sklearn PCA教程

来源：互联网发布：广告过滤软件编辑：程序博客网时间：2024/05/14 12:04

PCA主成分分析
- 简介
  - 线性变换
  - 协方差
  - 矩阵对角化
- 算法及实例
  - PCA算法
  - 实例
    - 整个降维过程的示意图如下
  - 进一步讨论

声明：

参考：PCA数学原理、维基百科

PCA——主成分分析

简介

PCA全称Principal Component Analysis，即主成分分析，是一种常用的数据降维方法。它可以通过线性变换将原始数据变换为一组各维度线性无关的表示，以此来提取数据的主要线性分量。

划重点：

线性无关是因为构建的特征轴是正交的
主要线性分量，因为只选取了方差够大的特征（或者说是主成分）

线性变换

一个矩阵与一个列向量A相乘，等到一个新的列向量B，则称该矩阵为列向量A到列向量B的线性变换。

我们希望投影后投影值尽可能分散，而这种分散程度，可以用数学上的方差来表述。

V a r (a) = 1 m \sum i = 1 m (a i - μ) 2

即寻找一个一维基，使得所有数据变换为这个基上的坐标表示后，方差值最大。

解释：方差越大，说明数据越分散。通常认为，数据的某个特征维度上数据越分散，该特征越重要。

对于更高维度，还有一个问题需要解决，考虑三维降到二维问题。与之前相同，首先我们希望找到一个方向使得投影后方差最大，这样就完成了第一个方向的选择，继而我们选择第二个投影方向。如果我们还是单纯只选择方差最大的方向，很明显，这个方向与第一个方向应该是“几乎重合在一起”，显然这样的维度是没有用的，因此，应该有其他约束条件——就是正交

解释：从直观上说，让两个字段尽可能表示更多的原始信息，我们是不希望它们之间存在（线性）相关性的，因为相关性意味着两个字段不是完全独立，必然存在重复表示的信息。

数学上可以用两个字段的协方差表示其相关性：

C o v (a, b) = 1 m \sum i = 1 m (a i - μ a) (b i - μ b)

当协方差为0时，表示两个字段线性不相关。

总结一下，PCA的优化目标是：
将一组N维向量降为K维（K大于0，小于N），其目标是选择K个单位正交基，使得原始数据变换到这组基上后，各字段两两间协方差为0，而字段的方差则尽可能大。

所以现在的重点是方差和协方差

协方差

在统计学上，协方差用来刻画两个随机变量之间的相关性，反映的是变量之间的二阶统计特性。考虑两个随机变量Xi和Xj，它们的协方差定义为

c o v (X i, X j) = E [(X i - E (X i)) (X j - E (X j))]

tips：独立，不相关与协方差为零三者的关系
只讨论离散型随机变量的情形。
独立：随机变量ξ,η独立是指对于任意的常数a,b，都有
$P (ξ = a, η = b) = P (ξ = a) \cdot P (η = b)$ .
相关性，相关系数 $ρ ξ η = c o v ( ξ , η ) v a r ( ξ ) - - - - - \sqrt v a r ( η ) - - - - - \sqrt$
相关系数其实是“线性相关系数”
相关系数和协方差在描述相关性方面是等价的，但独立与相关性的关系是：

独立=>不相关

协方差矩阵：
假设有两个变量a和b，特征维度为m，那么构成的数据集矩阵为：

X = (a 1 b 1 a 2 b 2 . . . . . . a m b m)

再假设它们的均值都是0，对于有两个均值为0的m维向量组成的向量组，

1 m X X T = ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ ⎜ 1 m \sum i = 1 m a 2 i 1 m \sum i = 1 m a i b i 1 m \sum i = 1 m a i b i 1 m \sum i = 1 m b 2 i ⎞ ⎠ ⎟ ⎟ ⎟ ⎟ ⎟

可以发现对角线上的元素是两个字段的方差，其他元素是两个字段的协方差，两者都被统一到了一个矩阵——协方差矩阵中。

回归一下优化目的：方差max，协方差min！！

要达到优化目的，等价于将协方差矩阵对角化：即除对角线外的其他元素化为0，并且在对角线上将元素按大小从上到下排列，这样我们就达到了优化目的。

设原始数据矩阵X对应的协方差矩阵为C，而P是一组基按行组成的矩阵，设Y=PX，则Y为X对P做基变换后的数据。设Y的协方差矩阵为D，我们推导一下D与C的关系：

D = 1 m Y Y T = 1 m (P X) (P X) T = 1 m P X X T P T = P (1 m X X T) P T = P C P T

解释：想让原始数据集X =>pca成数据集Y，使得Y的协方差矩阵是个对角矩阵。
有上述推导可得，若有矩阵P能使X的协方差矩阵对角化，则P就是我们要找的PCA变换。

优化目标变成了寻找一个矩阵P，满足PCPT是一个对角矩阵，并且对角元素按从大到小依次排列，那么P的前K行就是要寻找的基，用P的前K行组成的矩阵乘以X就使得X从N维降到了K维并满足上述优化条件。

矩阵对角化

首先，原始数据矩阵X的协方差矩阵C是一个实对称矩阵，它有特殊的数学性质：

实对称矩阵不同特征值对应的特征向量必然正交。
设特征值λ重数为r，则必然存在r个线性无关的特征向量对应于λ，因此可以将这r个特征向量单位正交化。

一个n行n列的实对称矩阵一定可以找到n个单位正交特征向量，设这n个特征向量为e1,e2,...,en，我们将其按列组成矩阵：

E = (e 1 e 2 . . . e n)

则对协方差矩阵C有如下结论：

E T C E = Λ = ⎛ ⎝ ⎜ ⎜ ⎜ λ 1 λ 2 . . . λ n ⎞ ⎠ ⎟ ⎟ ⎟

这里不懂的朋友可以查阅线性代数相关书籍。

P = E T

P是协方差矩阵的特征向量单位化后按行排列出的矩阵，其中每一行都是C的一个特征向量。如果设P按照中特征值的从大到小，将特征向量从上到下排列，则用P的前K行组成的矩阵乘以原始数据矩阵X，就得到了我们需要的降维后的数据矩阵Y。

在解释一下，特征值λ为什么要从大到小排列，为什么要选较大的λ？？？
因为我们协方差矩阵的对角线元素是方差，我们想要找方差交大的特征维度，所以要选择较大的对角线元素。
而对角矩阵Λ虽然是C经过线性变化后的矩阵，但它在对角线上元素的大小关系没变，特征维度i对应的特征值λi越大，该维度上数据的方差越大。

算法及实例

PCA算法

总结一下PCA的算法步骤：
设有n条m维数据。

将原始数据按列组成m行n列矩阵X
将X的每一行(代表一个属性字段）进行零均值化
求出协方差矩阵C=1mXXT
求出协方差矩阵的特征值及对应的特征向量
将特征相浪按对应特征值大小从上到下按行排列成矩阵，取前k行组成矩阵P
Y=PX即为降维到k维后的数据

关于PCA的python实现代码可以参考这里，不过ipynb文件可能在github上刷不出来，建议下载下来用jupyter notebook打开。

实例

原始数据集矩阵X：

(1113234424)

求均值后：

(- 1 - 1 - 1 0 002101)

再求协方差矩阵

C = 1 5 (- 1 - 1 - 1 0 002101) \cdot ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ - 1 - 1 020 - 1 0011 ⎞ ⎠ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ = ⎛ ⎝ ⎜ ⎜ 6 5 4 5 4 5 6 5 ⎞ ⎠ ⎟ ⎟

特征值：

λ 1 = 2, λ 2 = 2 5

对应的特征向量：

c 1 ⎛ ⎝ ⎜ ⎜ ⎜ 1 2 \sqrt 1 2 \sqrt ⎞ ⎠ ⎟ ⎟ ⎟, c 1 ⎛ ⎝ ⎜ ⎜ ⎜ - 1 2 \sqrt 1 2 \sqrt ⎞ ⎠ ⎟ ⎟ ⎟

标准化（其实不标准化也一样，只是稍显不专业）

P = ⎛ ⎝ ⎜ ⎜ ⎜ 1 2 \sqrt - 1 2 \sqrt 1 2 \sqrt 1 2 \sqrt ⎞ ⎠ ⎟ ⎟ ⎟

选择较大特征值对应的特征向量：

(1 2 \sqrt 1 2 \sqrt)

执行PCA变换：Y=PX，得到的Y就是PCA降维后的值数据集矩阵：

Y = (1 2 \sqrt 1 2 \sqrt) \cdot (- 1 - 1 - 1 0 002101) = (- 3 2 \sqrt - 1 2 \sqrt 0 3 2 \sqrt - 1 2 \sqrt)

整个降维过程的示意图如下

降维投影结果

进一步讨论

根据上面对PCA的数学原理的解释，我们可以了解到一些PCA的能力和限制。PCA本质上是将方差最大的方向作为主要特征，并且在各个正交方向上将数据“离相关”，也就是让它们在不同正交方向上没有相关性。

因此，PCA也存在一些限制，例如它可以很好的解除线性相关，但是对于高阶相关性就没有办法了，对于存在高阶相关性的数据，可以考虑Kernel PCA，通过Kernel函数将非线性相关转为线性相关，关于这点就不展开讨论了。另外，PCA假设数据各主特征是分布在正交方向上，如果在非正交方向上存在几个方差较大的方向，PCA的效果就大打折扣了。

最后需要说明的是，PCA是一种无参数技术，也就是说面对同样的数据，如果不考虑清洗，谁来做结果都一样，没有主观参数的介入，所以PCA便于通用实现，但是本身无法个性化的优化。

阅读全文

1 0