两个角度带你吃透PCA

来源：互联网发布：孟加拉海关数据编辑：程序博客网时间：2024/06/08 03:53

关于(Principal Component Analysis)的推导方法很多，Ng在CS229的课程中也说到大约有10种左右；本文介绍的就是他在课程中讲到的，基于最大化方差的推导方法。

1. What is PCA

PCA是主成成分分析（Principal Component Analysis）的简写，属于线性降维方法中的一种；其目的是对包含冗余的数据集进行降维等。所谓线性降维是指这种方法仅仅对于各维度之间存在线性关系（此时肯定有冗余维度）时有作用，或者说效果最好；而对于其它存在非线性情况的冗余时，不适用。

2. Idea of reduce

先来通过两个例子，弄明白降维的思想：

2.1. Reduce data from 2D to 1D

这里写图片描述

如上图所示为一个二维平面，所有的点都用了两个维度来表示；那我们如何能降低到只用一个维度就能表示呢？接着看下图：

这里写图片描述

此时，若仅用图中的绿色直线(u)作为坐标轴，以每个点在u上的的投影为新的坐标点；此时，先前的二维坐标(xi,xj)就被u上的一维坐标zi取代了。

这里写图片描述

2.2. Reduce data from 3D to 2D

这里写图片描述

如上图所示为一个三维空间，所有的点都用了三个维度来表示；那又如何能降低到只用两个维度就能表示呢？答：投影到一个平面。

这里写图片描述

我们可以看到，几乎所有的点都在红色平面上；所有，我们就将所有的点投影到由u1,u2所张成的二维平面上，然后用二维平面点来代替原来三维空间中的点。

这里写图片描述

以上就是降维的思想。

2.3. Standardization

在正式介绍之前，我们先对数据进行标准化处理，目的是为了提高算法的收敛速度，以及计算推导的方便性。标准化之后样本的均值为0，方差为1。如下图：
这里写图片描述

红色的样本点，是经蓝色样本点标准化之后的结果；我们可以看到，除了全局位置发生了改变，其它诸如相对位置，以及样本点之间的结构都没有发生变化。绿色的点，为样本的均值点（中心）

3. PCA(Principal Component Analysis)

前面说到了降维的思想：从高维降到低维就是在低维空间（平面）中找到对应基（上面说到的u）来表示原来高维空间中的点即可。所以降维的关键就在于如何建立一个模型来找到对应的基。

3.1 Reduce data from 2D to 1D

这里写图片描述

在上图中(‘x’表示样本点，‘·’表示投影点)，似乎看一眼就觉得用左图中投影方式比右图中的更好。为什么呢？因为右图中的投影点太“密集”会导致相互重叠而丢失信息，所以显然这种投影方式不好。并且此时我们可以知道，衡量好坏的标准就是投影后所有的样本点整体上要尽可能的分开，也就是离中心点要尽量的远。而这，可以通过最大化方差(Voriance)来衡量。

这里写图片描述

如上图所示，设直线所在的方向单位向量为u1（图中红色箭头），样本点x与u的夹角为θ，则该样本点的投影点到原点的距离为xTu1，（x,u1均为列向量）。

证明：易知，⟨x,u1⟩=|x|⋅|u1|cosθ,d=cosθ⋅|x|=xTu1|x||u1||x|=xTu1

所以我们可以得到如下优化目标：

max | | u 1 | | = 1 1 m \sum i = 1 m (x (i) T u 1) 2 = 1 m \sum i = 1 m u T 1 x (i) x (i) T u 1 = u T 1 (1 m \sum i = 1 m x (i) x (i) T) u 1 (3.1)

对于(3.1)这个优化问题，我们用拉格朗日乘数法很容易就能求解出u为红色部分的特征向量。

证明：

L \partial L \partial u 1 ⟹ ⟹ = u T 1 (1 m \sum i = 1 m x (i) x (i) T) u 1 - λ (u T 1 u 1 - 1) = u T 1 1 m \sum i = 1 m x (i) x (i) T - λ u T 1 = 0 u T 1 Σ = λ u T 1 ⟹ (u T 1 Σ) T = (λ u T 1) T Σ u 1 = λ u 1 (Σ = 1 m \sum i = 1 m x (i) x (i) T 为 对 称 阵)

3.2 Reduce data from 3D to 2D

上面说完从2维降到1维的推导，可能比较容易理解；我再来推导以下从3维降到2维的推导，这样我们就能顺理成章地引入到高维了。

这里写图片描述

如上图，是投影到二维平面后的结果。红色箭头分别为单位u1→,u2→，则优化模型变成如下形式：

max | | u | | = 1 1 m \sum i = 1 m [(x (i) T u 1) 2 + (x (i) T u 2) 2] = u T 1 Σ u 1 + u T 2 Σ u 2

由上面的推导可知，u1,u2分别为Σ的两个特征向量。

3.3 In high-dimension

由上面的例子，我们可以顺其自然的将其拓展到高维空间中：
设u={u1,u2,...uk}为n维空间降维到k(k<n)维空间中的基向量,则有,

max | | u | | = 1 1 m \sum i = 1 m (x (i) T u) 2 = 1 m \sum i = 1 m u T x (i) x (i) T u = u T (1 m \sum i = 1 m x (i) x (i) T) u = max | | u | | = 1 u T Σ u

且u为方阵Σ的前k个主向量（前k个最大特征值对应的特征向量）

4. Representation

由此我们可以便可以知道从n维空间中，降到k维空间的k个基向量u1,u2...uk就是Σ的k个主要特征向量。在我们得到这些向量之后如何来表示，也就是降维呢？下面就来说说坐标的表示：

我们知道在平面直角坐标系中，我们用的基向量分别是i=(1,0)T,j=(0,1)T，如下图所示：

这里写图片描述

那么向量x=(5,6)T到底是什么含义呢？其实就是在i方向移动iT⋅x=5个单位，在j方向移动jT⋅x=6个单位。可能这样感观不明显，我们换旋转一下坐标系。

这里写图片描述

如图所示，此时我们选取i^=(12√,12√)T,j^=(−12√,12√)T来作为我们的基向量，那么此时i,j坐标系中的样本点x=(2,6)T在i^,j^是多少呢？答案是：在i^方向移动i^T⋅x=82√；在j^方向移动j^T⋅x=42√，所以，在新的坐标系下，样本点x的坐标为:

⎡ ⎣ i^T j^T ⎤ ⎦ \cdot x = ⎡ ⎣ ⎢ ⎢ ⎢ 1 2 \sqrt - 1 2 \sqrt 1 2 \sqrt 1 2 \sqrt ⎤ ⎦ ⎥ ⎥ ⎥ \cdot [26] = ⎡ ⎣ ⎢ ⎢ ⎢ 8 2 \sqrt 4 2 \sqrt ⎤ ⎦ ⎥ ⎥ ⎥

所以降维之后的坐标：

y (i) = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ u T 1 x (i) u T 2 x (i) u T 3 x (i) ⋮ u T k x (i) ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

5. Conclusion

由以上，我们总结降维的步骤为：

(1). 标准化；
(2). 计算Σ=1m∑mi=1x(i)x(i)T=1mXTX 其中，Xm×n为数据集，n为维度；
(3). 计算特征向量，并选取前k个主要特性向量；
这里写图片描述
(4). 计算降维后的数据集y=XuTk×n，

下面贴一个用python写的例子的源码pcaByCoding.py

关于PCA的推导，到此可以算是结束了。下面我再来谈谈对Σ，以及PCA的一些理解，没兴趣的直接关闭，不影响。

6. Others

先放一张图，待会儿会用到，里面提到了运用PCA的隐藏前提。

这里写图片描述
其中有两点值得注意，分别是线性关系和正态分布。也就是说当各个维度之间存在着线性关系，以及每个维度中的随机变量都服从正态分布时效果最佳。

第一点：关于协方差矩阵

设有如下形式数据集（已做标准化处理）：

X 2 \times 3 = [a 1 a 2 b 1 b 2 c 1 c 2]

即，样本数和维度分别为2和3，为了叙述方面，我们后面会用a,b,c分别表示三个维度。

因此我们可以得到：

Σ = 1 m X T X = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ 1 m \sum i = 1 2 a 2 i 1 m \sum i = 1 2 a i b i 1 m \sum i = 1 2 a i c i 1 m \sum i = 1 2 a i b i 1 m \sum i = 1 2 b 2 i 1 m \sum i = 1 2 b i c i 1 m \sum i = 1 2 a i c i 1 m \sum i = 1 2 b i c i 1 m \sum i = 1 2 c 2 i ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

又因为

V a r (X) = 1 m E (X - E (X)) 2 = E (X - X ¯) 2 C o v (X, Y) = C o v (Y, X) = E [(X - X ¯ ¯ ¯) (Y - Y ¯ ¯ ¯]) C o v (X, X) = V a r (X)

所以有：

V a r (a) = 1 m [(a 1 - 0) 2 + (a 2 - 0) 2] = 1 m \sum i = 1 2 a 2 i V a r (b) = 1 m \sum i = 1 2 b 2 i; V a r (c) = 1 m \sum i = 1 2 c 2 i; C o v (a, b) = 1 m [(a 1 - 0) (b 1 - 0) + (a 2 - 0) (b 2 - 0)] = 1 m \sum i = 1 2 a i b i C o v (a, c) = 1 m \sum i = 1 2 a i c i; C o v (b, c) = 1 m \sum i = 1 2 b i c i

所以：

Σ = ⎡ ⎣ ⎢ V a r (a) C o v (a, b) C o v (a, c) C o v (a, b) V a r (b) C o v (b, c) C o v (a, c) C o v (b, c) V a r (c) ⎤ ⎦ ⎥

因此Σ称之为协方差矩阵。从这个矩阵中能得到什么信息呢？
我们知道，倘若Cov(X,Y)=0则，维度X,Y之间一定不存在线性关系；又因为各维度之间均服从二维正态分布，我们可以进一步得出Cov(X,Y)=0⟺X,Y独立。

X,Y表示：a,b,c中任意两个随机变量

也就是说，给定一个协方差矩阵：倘若除了主对角线外，其他元素均为0（或接近于0），则其对应的数据集一定不适合通过PCA来进行线性降维。或者换句话说，它已经是某个数据集PCA降维后的结果，此时不存在线性关系。

假设Uk×n为k个基向量组成的矩阵，Xm×n为维度间包含有线性关系的的矩阵（即可以降维）；则降维后的矩阵为Ym×k=Xm×nUTk×n，且此时Y的个维度之间已经不存在线性关系。

由此我们可以知道，Y的协方差矩阵Σ′肯定是一个对角阵,那到底Σ′是什么样的呢？我们一起来看看：

Σ' = 1 m Y T Y = 1 m (X U T) T (X U T) = 1 m U X T X U T = U 1 m X T X U T = U Σ U T

于是我们有：

Σ' = U Σ U T = Λ (*)

又，Σ是实对称阵，则必存在正交阵Q，使得

Q - 1 Σ Q = Λ' ， 其 中 Q = (β 1, β 2 . . . β n), (β i 为 列 向 量), Λ' = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ λ 1 λ 2 ⋱ λ n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥

需要注意的是，

Q中

β的顺序，要同

Λ′中

λ的顺序对应，即若取

Q = (β 2, β 1 . . . β n), 则 Λ' = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ λ 2 λ 1 ⋱ λ n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥

即：

我们总能找到一个序列

Λ'' = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ λ i λ j ⋱ λ k ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ = Λ

所以此时有(Q−1)′′=U,Q′′=UT，即(Q−1)′′ΣQ′′=Λ′′

由此我们可以得到，U=(Q′′)T=(βi,βj,...)T，

第二点：关于主要特征向量

前面我们说到，最终选择Σ的k个主要特征向量；并且也说到，k个主要特征向量就是前k个最大特征值依次对应的k个特征向量。但是原因呢？

要知道原因得先来谈谈特征向量和特征值。我们知道越大的特征值所对应的特征向量在进行线性变换后被拉伸的程度越剧烈（详见此文第四章）。因此，在线性变换(降维)y(i)k×1=Uk×nx(i)n×1后，欲使每个维度上的样本点越离散（方差越大），就必须选择被拉伸得最剧烈的特征向量，而被拉伸的最剧烈的特征向量，就通过λ的值来确定。

参考：

如何通俗易懂地解释「协方差」与「相关系数」的概念？
PCA的数学原理
PRINCIPAL COMPONENT ANALYSIS
Are there implicit Gaussian assumptions in the use of PCA (principal components analysis)?
cs229-notes10.pdf
带你重拾线性代数

阅读全文

0 0