降维相关

来源：互联网发布：java游戏开发视频编辑：程序博客网时间：2024/05/24 01:26

- 什么是降维
- PCA
- LDA
- LLE
- LE
- SNE
- T-SNE

什么是降维

一般来说，在ml里面，需要feature。而对于feature，我们又通常使用向量来表示。所以，简单地说，降维就是将一个高维的向量映射为一个低维的向量。形象地说，降维可以看作一个函数，输入是一个D为的向量，输出是一个M维的向量。

那怎么样才算是一个好的降维结果呢？直观地说，就是要既能降低维度，又能使得损失的信息尽量少。举个例子，如果现在有淘宝店铺的特征，有非常多维，我们想降维，那要怎么做呢？假设特征中有两维特征是“浏览量”和“访客数”，其实这两者之间应该是具有强相关性的，直觉上删除其中一个并不会造成多大的信息损失。以上就是一个朴素的降维思想。而按照机器学习的方法，我们需要定义一个目标函数，并进行最优化。而不同的优化目标也就导致了不同的降维算法。

首先，来看看最直接的损失函数，reconstuction error：

1 N \sum i = 1 N | | x i - x i ~ | | 2

其中xi~是xi降维后得到的低维向量再次“升维”而还原出来的高维向量。上面的式子无脑符合“既能降低维度，又能使得损失的信息尽量少”这句话。虽然这种损失函数很直接，但缺点是不仅要想出降维的方法还要有还原的方法。

另一种损失函数是variance：

a r g m a x f 1 N \sum i = 1 N (f (x i) - f (x i) ¯) 2 注 意 那 个 横 线 覆 盖 整 个 f (x i)

这里variance的意思是“使得特征具有最好的区分能力”，在式子中的表现就是方差了。

好了，下面开始从一个个具体的降维算法入手，讲述其中的一些数学原理。

PCA

PCA作为学术界和工业界都最为常见的一个降维算法，肯定是排第一个啦。

在真正讲PCA之前，先明确一下协方差和协方差矩阵。协方差

c o v (x, y) = 1 n - 1 \sum i = 1 n x i y i

是为了检测x和y两个变量之间的相关性，为正表明正相关，且越大说明越正相关；反之则是负相关。单单协方差只能衡量两个变量，也就是说只能处理特征只有二维的情况。如果特征有多维，那么就是协方差矩阵出场的时候了:

C = ⎛ ⎝ ⎜ c o v (x, x) c o v (y, x) c o v (z, x) c o v (x, y) c o v (y, y) c o v (z, y) c o v (x, z) c o v (y, z) c o v (z, z) ⎞ ⎠ ⎟ 对 于 矩 阵 X M * N ， 其 协 方 差 矩 阵 为 C M * M = 1 N - 1 X X T

对角线上是方差，而其他位置是协方差。另外，我们有以下推导：

∵ 协 方 差 的 性 质 c o v (x, y) = c o v (y, x) ∴ 上 面 的 协 方 差 矩 阵 就 是 一 个 实 对 称 阵 ∴ 可 以 进 行 正 交 对 角 化 ， 即 存 在 正 交 矩 阵 U ， 使 得 U T Σ U = Λ 其 中 ， Λ 是 一 个 对 角 矩 阵 ， 且 对 角 线 是 矩 阵 Σ 的 特 征 值 矩 阵 U 是 矩 阵 Σ 的 特 征 向 量 正 交 化 得 到 的 ∴ 这 是 一 个 半 正 定 矩 阵 （ 注 意 ， 光 一 个 实 对 称 阵 是 推 不 出 半 正 定 的 ， 还 要 求 特 征 值 全 大 于 等 于 零 ， 可 能 还 要 求 严 格 对 角 最 优 ） 所 谓 半 正 定 矩 阵 ， 就 是 有 X T M X \geq 0 ， 其 中 X 为 向 量 ∴ 可 以 进 行 C h o l e s k y 分 解 ， 即 Σ = U T Λ U ， 其 中 U 是 上 三 角 矩 阵 ， Λ 是 对 角 线 元 素 都 非 负 的 对 角 矩 阵 ∴ Σ = U T Λ U = [U T Λ 1 / 2] [Λ 1 / 2 U] = [Λ 1 / 2 U] T [Λ 1 / 2 U] ∴ Σ = C T C ， 其 中 C = Λ 1 / 2

好了，协方差矩阵的基础讲完了，下面开始介绍PCA。

PCA的目的是将D维的向量降为M维（0< M< D）。有两个目标，一个是保留区分能力最强的M个特征，另一个是这M维特征之间相关性尽量小。前者体现在每一维特征自己的方差都较大，后者体现在不同维度特征的协方差较小。所以，从这两点出发，很自然地就想到了协方差矩阵。

设原始数据矩阵XM∗N(M表示特征维数，N表示数据量)的协方差矩阵为CM∗M，而我们想将X降维成YK∗N，也就是寻找一种线性变换，或者说一个矩阵P，使得Y=PX。我们设Y的协方差矩阵为DK∗K。根据上一段，我们希望这个矩阵D是一个对角矩阵，且对角线上的值越大越好。

那么，要怎么求P，才能使得这个D能满足我们的要求呢？我们来推导一下：

D = 1 N - 1 Y Y T = 1 N - 1 (P X) (P X) T = 1 N - 1 P X X T P T = P (1 N - 1 X X T) P T = P C P T

所以，我们要找的P能使得原始的协方差矩阵对角化。形式化描述就是：求矩阵S，使得SCST是一个对角矩阵，并且对角元素从大到小排列。然后我们只需要取矩阵S的前K行组成的矩阵P，即可。接下来就是数学的东西了，上面介绍协方差矩阵的特性的时候提过了，不再多说。

PCA的一张二维降一维的图，这里有PCA的例子

PCA也有一些限制，它可以解决特征之间存在线性相关的情况，但对于非线性相关的效果就不怎么样了。另外，下面是我从网站粘下来的优缺点：

优点：
1. 以方差衡量信息的无监督学习，不受样本标签限制。
2. 各主成分之间正交，可消除原始数据成分间的相互影响。
3. 可减少指标选择的工作量。
4. 用少数指标代替多数指标，利用PCA降维是最常用的算法。
5. 计算方法简单，易于在计算机上实现。

缺点：
1. 主成分解释其含义往往具有一定的模糊性，不如原始样本完整。
2. 贡献率小的主成分往往可能含有对样本差异的重要信息。
3. 特征值矩阵的正交向量空间是否唯一有待讨论。
4. 无监督学习。

LDA

下面讲LDA，毕竟LDA与PCA是我们最常听说的两个降维算法。

LDA首先是一个有监督的降维算法，会利用类别信息。所以其核心思想就是“将高维的向量投影到低维的空间，使得投影后同一类点之间的距离较小，不同类之间距离较大”，也就是“最大化类间距离，最小化类内距离”。具体的，这个距离是通过方差来衡量的。

循序渐进，我们首先来看一下二分类的LDA。

注：说到二类LDA，那就是投影到一条直线上，也就是说，降维成一维。可能有人会问，在二类的前提下，如果我们现在想将一个D维的向量x降维成M维的向量y，应该怎么办呢？这时候可以这么回答，LDA对于二类的情况能降成一维，明显一维的情况足以区分二类（另外，LDA降维后的维数不能大于类别数减一，二类的最大只能降成一维）。所以LDA也可以看成是一个分类算法。

二类LDA过程如下：

假 设 样 本 原 始 的 坐 标 为 一 个 向 量 x 投 影 后 样 本 的 坐 标 为 ： y = w T x ， 这 里 y 就 是 一 个 标 量 ， 一 个 值 类 别 1 的 中 心 点 为 ： μ 1 = 1 N 1 \sum x \in D 1 x 类 别 2 的 中 心 点 为 ： μ 2 = 1 N 2 \sum x \in D 2 x 类 别 1 投 影 后 的 中 心 点 为 ： μ ¯ 1 = 1 N 1 \sum x \in D 1 w T x = w T μ 1 类 别 2 投 影 后 的 中 心 点 为 ： μ ¯ 2 = 1 N 2 \sum x \in D 2 w T x = w T μ 2 我 们 使 用 两 类 中 心 点 之 间 的 距 离 来 衡 量 类 间 距 离 “ 最 大 化 类 间 距 离 ” 就 是 ： max | | μ ¯ 1 - μ ¯ 2 | | 2 类 别 1 投 影 后 的 类 内 距 离 ： s ¯ 21 = \sum y \in D 1 | | y - μ ¯ 1 | | 2 类 别 2 投 影 后 的 类 内 距 离 ： s ¯ 22 = \sum y \in D 2 | | y - μ ¯ 2 | | 2 “ 最 小 化 类 内 距 离 ” 就 是 ： min (s ¯ 21 + s ¯ 22) 最 终 目 的 就 是 : J (w) = max | | μ ¯ 1 - μ ¯ 2 | | 2 s ¯ 2 1 + s ¯ 2 2

接下来我们要稍作推导了：

| | μ ¯ 1 - μ ¯ 2 | | 2 = w T (μ 1 - μ 2) (μ 1 - μ 2) T w = w T S B w s ¯ 21 = \sum y \in D 1 | | y - μ ¯ 1 | | 2 = \sum x \in D 1 | | w T x - w T μ 1 | | 2 = \sum x \in D 1 w T (x - μ 1) (x - μ 1) T w = w T S 1 w 则 s ¯ 21 + s ¯ 22 = w T S 1 w + w T S 2 w = w T S W w 所 以 有 J (w) = w T S B w w T S W w ， 其 中 S B 是 类 间 散 度 矩 阵 ， S W 是 类 内 散 度 矩 阵 S B = (μ 1 - μ 2) (μ 1 - μ 2) T S W = (x 1 - μ 1) (x 1 - μ 1) T + (x 2 - μ 2) (x 2 - μ 2) T 接 下 来 就 是 数 学 问 题 了 ， 篇 幅 有 限 ， 不 多 做 解 释 了 。

上面是二类的做法，那多类要怎么做呢（记住LDA降维后的维数不能大于类别数减一）？

首 先 ， y = w T x 还 是 同 样 适 用 ， 只 不 过 这 里 y 是 一 个 向 量 ， w 是 一 个 矩 阵 。 对 于 类 内 散 度 矩 阵 ， 还 是 一 样 的 配 方 ， 只 不 过 相 加 的 项 数 会 变 多 ， 毕 竟 还 是 算 每 个 点 到 中 心 点 的 距 离 。 而 对 于 类 间 散 度 矩 阵 确 不 能 这 么 求 了 ， 因 为 有 多 个 类 别 。 所 以 我 们 定 义 一 个 全 局 散 度 矩 阵 ， 用 来 求 每 一 个 类 别 的 中 心 点 到 总 中 心 点 的 距 离 把 这 些 距 离 求 和 ， 再 求 最 大 值 S B = \sum i = 1 N N i (μ i - μ) (μ i - μ) T S W = \sum i = 1 N \sum x \in D i (x - μ i) (x - μ i) T 下 面 还 是 数 学 内 容 ， 不 多 赘 述 。

好了，关于LDA就说这么多。另外，关于“LDA降维后的维数不能大于类别数减一”与矩阵的秩，特征向量有关。具体为什么建议去看LDA接下来的数学推导，可以看这里。关于PCA和LDA的对比，可以看这里

LLE

上面的两种算法都是线性的，那对于非线性的情况要怎么处理呢？这里介绍一下LLE算法。

LLE算法的介绍可见Arrow Luo的局部线性嵌入降维算法的pdf版，这里就不介绍详细的算法步骤了，只提几个关键点帮助理解。

LLE应对的是非线性的情况（这里的非线性指的是无法线性映射到低维空间）。当然也不是所有的非线性情况都行，LLE有一个比较强的假设：原始数据满足流形，并且局部线性。
LLE非线性，所以不能求一个矩阵来直接表示降维过程。LLE中是直接求高维向量在低维空间中的表示的。
在求局部线性重构矩阵W的时候，在pdf的公式(4)中，X-WZ可以转化为WX-WZ的原因是∑W=1。
局部线性重构矩阵W的具体样子应该是这样的：总的应该是n*n的，n表示总节点数。每一行Wi对应某一个节点i，然后这一行只有k个位置有非零值，表示节点i的k个近邻点。然后这一行其他位置都是0.
在求解低维空间中的向量y的时候加入了两个约束条件，目的是使得解唯一并且易于求解。不然的话就一个那个求最小值的式子，只知道一个W，解肯定不唯一。

LLE的优缺点可以看这篇博客

LE

LE算法和LLE算法一样是基于流行假设的。

设Yi为Xi降维后的样本点，令矩阵W表示节点之间的连接关系。则LE的思想就是最小化：

\sum i = 1, j = 1 N W i j | | y i - y j | | 2

LE中文叫拉普拉斯特征映射，为什么要叫拉普拉斯呢？因为上面式子的求解需要运用到拉普拉斯矩阵，具体的推导过程如下：

定 义 对 角 矩 阵 D ， D i i = \sum j = 1 N W i j 令 矩 阵 L = D - W ， L 即 为 拉 普 拉 斯 矩 阵 ， 为 什 么 要 L 因 为 L 是 半 正 定 矩 阵 ， 最 小 特 征 值 是 0 ， 每 一 行 的 和 均 为 0 。 这 些 特 质 方 面 代 数 计 算 min \sum i = 1, j = 1 N W i j | | y i - y j | | 2 = min t r (Y T L Y) s . t . Y T D Y = I

说到这里，我想说一下为什么LE和LLE要基于流形假设（只是我个人理解）。首先，流形的定义就不多说了，在这里可以看作一个不闭合的曲面。然后对于PCA和LDA这种线性降维算法，他们认为高维的数据是低维数据的一个线性映射。所以降维也就是找高维到低维的一个线性映射。而对于LE和LLE这种非线性算法，认为高维的数据是低维数据在高维空间中被扭曲形成的，这是一种非线性的映射。因为是非线性的，所以找不到线性的映射矩阵。另外，流形在局部可以近似认为是线性的（LLE），或者说在局部可以建立边连接（意思是在高维空间局部建立边连接，实际上在低维空间中这条边也是存在的）（LE），这就是为什么LE和LLE要基于流形假设。

SNE

算法思想是：在高维空间相似的数据点，映射到低维空间也是相似的。

设Xi与Xj为高维空间中的两个样本点，使用概率pi|j来衡量两者的相似度。
设Yi与Yj为高维空间中的两个样本点，使用概率qi|j来衡量两者的相似度。

形成两个概率分布P和Q，目的是最小化：

C = \sum i K L (P i | | Q i) = \sum i \sum j p j | i log p j | i q j | i

那么概率具体应该怎么表示呢？正比于以x_i为中心的高斯分布的概率密度:

p j | i = exp ( - ∥ ∥ x i - x j ∥ ∥ 2 / 2 σ 2 i ) \sum k \neq i exp ( - ∥ x i - x k ∥ 2 / 2 σ 2 i ) 表 示 x i 以 条 件 概 率 p j | i 选 择 x j 作 为 其 邻 近 点

低维空间中，正比于以y_i为中心的高斯分布的概率密度:

q j | i = exp ( - ∥ ∥ y i - y j ∥ ∥ 2 ) \sum k \neq i exp ( - ∥ y i - y k ∥ 2 )

为什么这么做可能是方便后面的计算，也有可能是因为后面迭代计算时加入了高斯噪声。

当然，考虑到对称性，最终定义:

p i j = p j i = p j | i + p i | j 2

T-SNE

相对SNE就是将高斯分布改成了t-分布。

从正态总体中抽取容量为N的随机样本，若该正态总体的均值为μ，方差为σ2。随机样本均值为x¯，方差为s2=1N−1∑Ni=1(xi−x¯)2，随机变量t可表示为：

t = x ¯ - μ s / N - - \sqrt

原因是高斯分布的尾部较低，对异常点比较敏感。相比之下，tt分布的尾部较高，对异常点不敏感，保证了其鲁棒性，因此其拟合结果更为合理，较好的捕获了数据的整体特征。

阅读全文

0 0