2.12 主成分分析（下）

来源：互联网发布：西瓜数据集3.0 编辑：程序博客网时间：2024/06/06 01:00

声明：该文章翻译自MIT出版的《DEEP LEARNING》，博主会定期更新文章内容。由于博主能力有限，中间有过错之处希望大家给予批评指正，一起学习交流。

为了进一步分析，我们必须替换g(c)的定义：

c * = a r g m i n c - 2 x T D c + c T D T D c

= a r g m i n c - 2 x T D c + c T I l c

(对

D施加正交和单位范数约束)

= a r g m i n c - 2 x T D c + c T c

我们可以用矢量微积分解决这个最优化问题（该部分内容参见4.3）：

\nabla (- 2 x T D c + c T c) = 0

- 2 D T x + 2 c = 0

c = D T x (2.2)

这是一个好消息：我们可以只用一个矩阵向量操作来最优化编码

x 。为了编码一个向量，我们应用编码函数:

f (x) = D T x

进一步使用矩阵乘法，我们也可以定义PCA重构操作：

r (x) = g (f (x)) = D D T x

接下里，我们需要选择编码矩阵

D。要做到这一点，我们需要回顾最小化输入和重构之间

L2距离的想法。然而，因为我们使用相同的矩阵来解码所有点，我们就不能孤立考虑每个点。我们必须最小化误差矩阵的Frobenius范数：

D * = a r g m i n D \sum i, j (x (i) j - r (x (i)) j) 2 ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ \sqrt 其 中 D T D = I l (2.3)

为了导出寻找

D∗的算法，我们先考虑

l=1的情况。在这种情况下，

D只是一个单一的矢量

d。将2.2代入2.3，并将

D化为

d * = a r g m i n d \sum i | | x (i) - d d T x (i) | | 22 其 中 | | d | | 2 = 1

上面是带入之后最直接的化简方式，但是对于写等式来说风格不悦目。它把标量放在了矢量的右边。而更方便的方式是将标量洗漱放在矢量的左边。因此，我们通常将等式写成下面的形式：

d * = a r g m i n \sum i | | x (i) - d T x (i) d | | 22 其 中 | | d | | 2 = 1

或者，根据标量的转置等于本身

d * = a r g m i n \sum i | | x (i) - x (i) d d | | 22 其 中 | | d | | 2 = 1

上面的方式使得我们能够用更紧凑的符号来表示。让

X∈Rm×n表示所有用来描述点的向量所定义的矩阵，这样的话

Xi,:=x(i)。我们现在将问题重写为：

d * = a r g m i n | | X - X d d T | | 2 F 其 中 | | d | | 2 = 1

暂时忽略限制，我们可以将Frobenius范数化为：

a r g m i n | | X - X d d T

= a r g m i n T r ((X - X d d T) T (X - X d d T))

（Frobenius范数的另一种定义）

= a r g m i n T r (X T X - X T X d d T - d d T X T X + d d T X T X d d T)

= a r g m i n T r (X T - T r (X T X d d T) - T r (d d T X T X + T r (d d T X T X d d T)

= a r g m i n - T r (X T X d d T) - T r (d d T X T X + T r (d d T X T X d d T)

（因为第一项与

d无关，不会影响最小化）

= a r g m i n - 2 T r (X T X d d T) + T r (d d T X T X d d T)

（因为在迹中我们可以循环矩阵的顺序）

= a r g m i n - 2 T r (X T X d d T) + T r (X T X d d T d d T)

（同样利用上面的性质）。现在，加上限制：

= a r g m i n - 2 T r (X T X d d T) + T r (X T X d d T d d T) 其 中 | | d | | 2 = 1

= a r g m i n - 2 T r (X T X d d T) + T r (X T X d d T) 其 中 | | d | | 2 = 1

（由于限制条件）

= a r g m i n - T r (X T X d d T) 其 中 | | d | | 2 = 1

= a r g m a x T r (X T X d d T) 其 中 | | d | | 2 = 1

= a r g m a x T r (d T X T X d) 其 中 | | d | | 2 = 1

这个最优化问题可以用特征分解解决。特别地，最优解

d由

XTX对应于最大特征值的特征向量给出。

对于一般情况l>1，D由对应于最大特征值的l特征向量给出。这个可以用归纳法证明。

0 0