SVM理解

来源：互联网发布：数据库中的decode 编辑：程序博客网时间：2024/05/27 20:45

支持向量机: Maximum Margin Classifier

by pluskid, on 2010-09-08, inMachine Learning

84 comments

本文是“支持向量机系列”的第一篇，参见本系列的其他文章。

支持向量机即 Support Vector Machine，简称 SVM 。我最开始听说这头机器的名号的时候，一种神秘感就油然而生，似乎把 Support 这么一个具体的动作和 Vector 这么一个抽象的概念拼到一起，然后再做成一个 Machine ，一听就很玄了！

不过后来我才知道，原来 SVM 它并不是一头机器，而是一种算法，或者，确切地说，是一类算法，当然，这样抠字眼的话就没完没了了，比如，我说 SVM 实际上是一个分类器 (Classifier) ，但是其实也是有用 SVM 来做回归 (Regression) 的。所以，这种字眼就先不管了，还是从分类器说起吧。

SVM 一直被认为是效果最好的现成可用的分类算法之一（其实有很多人都相信，“之一”是可以去掉的）。这里“现成可用”其实是很重要的，因为一直以来学术界和工业界甚至只是学术界里做理论的和做应用的之间，都有一种“鸿沟”，有些很 fancy 或者很复杂的算法，在抽象出来的模型里很完美，然而在实际问题上却显得很脆弱，效果很差甚至完全 fail 。而 SVM 则正好是一个特例——在两边都混得开。

好了，由于 SVM 的故事本身就很长，所以废话就先只说这么多了，直接入题吧。当然，说是入贴，但是也不能一上来就是 SVM ，而是必须要从线性分类器开始讲。这里我们考虑的是一个两类的分类问题，数据点用x 来表示，这是一个 n 维向量，而类别用 y 来表示，可以取 1 或者 -1 ，分别代表两个不同的类（有些地方会选 0 和 1 ，当然其实分类问题选什么都无所谓，只要是两个不同的数字即可，不过这里选择 +1 和 -1 是为了方便 SVM 的推导，后面就会明了了）。一个线性分类器就是要在n 维的数据空间中找到一个超平面，其方程可以表示为

w T x + b = 0

一个超平面，在二维空间中的例子就是一条直线。我们希望的是，通过这个超平面可以把两类数据分隔开来，比如，在超平面一边的数据点所对应的 y 全是 -1 ，而在另一边全是 1 。具体来说，我们令 f(x)=wTx+b ，显然，如果 f(x)=0 ，那么 x 是位于超平面上的点。我们不妨要求对于所有满足 f(x)<0 的点，其对应的 y 等于 -1 ，而 f(x)>0 则对应 y=1 的数据点。当然，有些时候（或者说大部分时候）数据并不是线性可分的，这个时候满足这样条件的超平面就根本不存在，不过关于如何处理这样的问题我们后面会讲，这里先从最简单的情形开始推导，就假设数据都是线性可分的，亦即这样的超平面是存在的。

如图所示，两种颜色的点分别代表两个类别，红颜色的线表示一个可行的超平面。在进行分类的时候，我们将数据点 x 代入 f(x) 中，如果得到的结果小于 0 ，则赋予其类别 -1 ，如果大于 0 则赋予类别 1 。如果 f(x)=0，则很难办了，分到哪一类都不是。事实上，对于f(x) 的绝对值很小的情况，我们都很难处理，因为细微的变动（比如超平面稍微转一个小角度）就有可能导致结果类别的改变。理想情况下，我们希望 f(x) 的值都是很大的正数或者很小的负数，这样我们就能更加确信它是属于其中某一类别的。

从几何直观上来说，由于超平面是用于分隔两类数据的，越接近超平面的点越“难”分隔，因为如果超平面稍微转动一下，它们就有可能跑到另一边去。反之，如果是距离超平面很远的点，例如图中的右上角或者左下角的点，则很容易分辩出其类别。

实际上这两个 Criteria 是互通的，我们定义 functional margin 为γˆ=y(wTx+b)=yf(x)，注意前面乘上类别y 之后可以保证这个 margin 的非负性（因为 f(x)<0 对应于 y=−1 的那些点），而点到超平面的距离定义为 geometrical margin 。不妨来看看二者之间的关系。如图所示，对于一个点 x ，令其垂直投影到超平面上的对应的为 x0 ，由于 w 是垂直于超平面的一个向量（请自行验证），我们有

x = x 0 + γ w ∥ w ∥

又由于

x0 是超平面上的点，满足

f(x0)=0 ，代入超平面的方程即可算出

γ = w T x + b ∥ w ∥ = f ( x ) ∥ w ∥

不过，这里的

γ 是带符号的，我们需要的只是它的绝对值，因此类似地，也乘上对应的类别

y 即可，因此实际上我们定义 geometrical margin 为：

γ ˜ = y γ = γ ˆ ∥ w ∥

显然，functional margin 和 geometrical margin 相差一个

∥w∥ 的缩放因子。按照我们前面的分析，对一个数据点进行分类，当它的 margin 越大的时候，分类的 confidence 越大。对于一个包含

n 个点的数据集，我们可以很自然地定义它的 margin 为所有这

n 个点的 margin 值中最小的那个。于是，为了使得分类的 confidence 高，我们希望所选择的 hyper plane 能够最大化这个 margin 值。不过这里我们有两个 margin 可以选，不过 functional margin 明显是不太适合用来最大化的一个量，因为在 hyper plane 固定以后，我们可以等比例地缩放

w 的长度和

b 的值，这样可以使得

f(x)=wTx+b 的值任意大，亦即 functional margin

γˆ 可以在 hyper plane 保持不变的情况下被取得任意大，而 geometrical margin 则没有这个问题，因为除上了

∥w∥ 这个分母，所以缩放

w 和

b 的时候

γ˜ 的值是不会改变的，它只随着 hyper plane 的变动而变动，因此，这是更加合适的一个 margin 。这样一来，我们的 maximum margin classifier 的目标函数即定义为

max γ ˜

当然，还需要满足一些条件，根据 margin 的定义，我们有

y i (w T x i + b) = γ ˆ i \geq γ ˆ, i = 1, \dots, n

其中

γˆ=γ˜∥w∥ ，根据我们刚才的讨论，即使在超平面固定的情况下，

γˆ 的值也可以随着

∥w∥ 的变化而变化。由于我们的目标就是要确定超平面，因此可以把这个无关的变量固定下来，固定的方式有两种：一是固定

∥w∥ ，当我们找到最优的

γ˜ 时

γˆ 也就可以随之而固定；二是反过来固定

γˆ ，此时

∥w∥ 也可以根据最优的

γ˜ 得到。处于方便推导和优化的目的，我们选择第二种，令

γˆ=1 ，则我们的目标函数化为：

max 1 ∥ w ∥, s . t ., y i (w T x i + b) \geq 1, i = 1, \dots, n

通过求解这个问题，我们就可以找到一个 margin 最大的 classifier ，如下图所示，中间的红色线条是 Optimal Hyper Plane ，另外两条线到红线的距离都是等于

γ˜ 的：

到此为止，算是完成了 Maximum Margin Classifier 的介绍，通过最大化 margin ，我们使得该分类器对数据进行分类时具有了最大的 confidence （实际上，根据我们说给的一个数据集的 margin 的定义，准确的说，应该是“对最不 confidence 的数据具有了最大的 confidence”——虽然有点拗口）。不过，到现在似乎还没有一点点 Support Vector Machine 的影子。很遗憾的是，这个要等到下一次再说了，不过可以先小小地剧透一下，如上图所示，我们可以看到 hyper plane 两边的那个 gap 分别对应的两条平行的线（在高维空间中也应该是两个 hyper plane）上有一些点，显然两个 hyper plane 上都会有点存在，否则我们就可以进一步扩大 gap ，也就是增大γ˜ 的值了。这些点呢，就叫做 support vector ，嗯，先说这么多了。

本文是“支持向量机系列”的第二篇，参见本系列的其他文章。

上一次介绍支持向量机，结果说到 Maximum Margin Classifier ，到最后都没有说“支持向量”到底是什么东西。不妨回忆一下上次最后一张图：

可以看到两个支撑着中间的 gap 的超平面，它们到中间的 separating hyper plane 的距离相等（想想看：为什么一定是相等的？），即我们所能得到的最大的 geometrical marginγ˜ 。而“支撑”这两个超平面的必定会有一些点，试想，如果某超平面没有碰到任意一个点的话，那么我就可以进一步地扩充中间的 gap ，于是这个就不是最大的 margin 了。由于在n 维向量空间里一个点实际上是和以原点为起点，该点为终点的一个向量是等价的，所以这些“支撑”的点便叫做支持向量。

很显然，由于这些 supporting vector 刚好在边界上，所以它们是满足 y(wTx+b)=1 （还记得我们把 functional margin 定为 1 了吗？），而对于所有不是支持向量的点，也就是在“阵地后方”的点，则显然有 y(wTx+b)>1 。事实上，当最优的超平面确定下来之后，这些后方的点就完全成了路人甲了，它们可以在自己的边界后方随便飘来飘去都不会对超平面产生任何影响。这样的特性在实际中有一个最直接的好处就在于存储和计算上的优越性，例如，如果使用 100 万个点求出一个最优的超平面，其中是 supporting vector 的有 100 个，那么我只需要记住这 100 个点的信息即可，对于后续分类也只需要利用这 100 个点而不是全部 100 万个点来做计算。（当然，通常除了 K-Nearest Neighbor 之类的Memory-based Learning 算法，通常算法也都不会直接把所有的点记忆下来，并全部用来做后续 inference 中的计算。不过，如果算法使用了 Kernel 方法进行非线性化推广的话，就会遇到这个问题了。Kernel 方法在下一次会介绍。）

当然，除了从几何直观上之外，支持向量的概念也会从其优化过程的推导中得到。其实上一次还偷偷卖了另一个关子就是虽然给出了目标函数，却没有讲怎么来求解。现在就让我们来处理这个问题。回忆一下之前得到的目标函数：

max 1 ∥ w ∥ s . t ., y i (w T x i + b) \geq 1, i = 1, \dots, n

这个问题等价于（为了方便求解，我在这里加上了平方，还有一个系数，显然这两个问题是等价的，因为我们关心的并不是最优情况下目标函数的具体数值）：

min 1 2 ∥ w ∥ 2 s . t ., y i (w T x i + b) \geq 1, i = 1, \dots, n

到这个形式以后，就可以很明显地看出来，它是一个凸优化问题，或者更具体地说，它是一个二次优化问题——目标函数是二次的，约束条件是线性的。这个问题可以用任何现成的QP (Quadratic Programming) 的优化包进行求解。所以，我们的问题到此为止就算全部解决了，于是我睡午觉去了~

啊？呃，有人说我偷懒不负责任了？好吧，嗯，其实呢，虽然这个问题确实是一个标准的 QP 问题，但是它也有它的特殊结构，通过 Lagrange Duality 变换到对偶变量 (dual variable) 的优化问题之后，可以找到一种更加有效的方法来进行求解——这也是 SVM 盛行的一大原因，通常情况下这种方法比直接使用通用的 QP 优化包进行优化要高效得多。此外，在推导过程中，许多有趣的特征也会被揭露出来，包括刚才提到的 supporting vector 的问题。

关于 Lagrange duality 我没有办法在这里细讲了，可以参考 Wikipedia 。简单地来说，通过给每一个约束条件加上一个 Lagrange multiplier，我们可以将它们融和到目标函数里去

L (w, b, α) = 1 2 ∥ w ∥ 2 - \sum i = 1 n α i (y i (w T x i + b) - 1)

然后我们令

θ (w) = max α i \geq 0 L (w, b, α)

容易验证，当某个约束条件不满足时，例如 yi(wTxi+b)<1，那么我们显然有θ(w)=∞ （只要令 αi=∞ 即可）。而当所有约束条件都满足时，则有 θ(w)=12∥w∥2 ，亦即我们最初要最小化的量。因此，在要求约束条件得到满足的情况下最小化 12∥w∥2 实际上等价于直接最小化 θ(w) （当然，这里也有约束条件，就是 αi≥0,i=1,…,n），因为如果约束条件没有得到满足，θ(w) 会等于无穷大，自然不会是我们所要求的最小值。具体写出来，我们现在的目标函数变成了：

min w, b θ (w) = min w, b max α i \geq 0 L (w, b, α) = p *

这里用 p∗ 表示这个问题的最优值，这个问题和我们最初的问题是等价的。不过，现在我们来把最小和最大的位置交换一下：

max α i \geq 0 min w, b L (w, b, α) = d *

当然，交换以后的问题不再等价于原问题，这个新问题的最优值用 d∗ 来表示。并，我们有 d∗≤p∗ ，这在直观上也不难理解，最大值中最小的一个总也比最小值中最大的一个要大吧！ :) 总之，第二个问题的最优值 d∗ 在这里提供了一个第一个问题的最优值 p∗ 的一个下界，在满足某些条件的情况下，这两者相等，这个时候我们就可以通过求解第二个问题来间接地求解第一个问题。具体来说，就是要满足 KKT 条件，这里暂且先略过不说，直接给结论：我们这里的问题是满足 KKT 条件的，因此现在我们便转化为求解第二个问题。

首先要让 L 关于 w 和 b 最小化，我们分别令 ∂L/∂w 和 ∂L/∂b 等于零：

\partial L \partial w = 0 \partial L \partial b = 0 \Rightarrow w = \sum i = 1 n α i y i x i \Rightarrow \sum i = 1 n α i y i = 0

带回 L 得到：

L (w, b, α) = 1 2 \sum i, j = 1 n α i α j y i y j x T i x j - \sum i, j = 1 n α i α j y i y j x T i x j - b \sum i = 1 n α i y i + \sum i = 1 n α i = \sum i = 1 n α i - 1 2 \sum i, j = 1 n α i α j y i y j x T i x j

此时我们得到关于 dual variable α 的优化问题：

max α s . t ., \sum i = 1 n α i - 1 2 \sum i, j = 1 n α i α j y i y j x T i x j α i \geq 0, i = 1, \dots, n \sum i = 1 n α i y i = 0

如前面所说，这个问题有更加高效的优化算法，不过具体方法在这里先不介绍，让我们先来看看推导过程中得到的一些有趣的形式。首先就是关于我们的 hyper plane ，对于一个数据点x 进行分类，实际上是通过把 x 带入到 f(x)=wTx+b 算出结果然后根据其正负号来进行类别划分的。而前面的推导中我们得到 w=∑ni=1αiyixi ，因此

f (x) = (\sum i = 1 n α i y i x i) T x + b = \sum i = 1 n α i y i ⟨ x i, x ⟩ + b

这里的形式的有趣之处在于，对于新点 x 的预测，只需要计算它与训练数据点的内积即可（这里 ⟨⋅,⋅⟩ 表示向量内积），这一点至关重要，是之后使用 Kernel 进行非线性推广的基本前提。此外，所谓 Supporting Vector 也在这里显示出来——事实上，所有非 Supporting Vector 所对应的系数α 都是等于零的，因此对于新点的内积计算实际上只要针对少量的“支持向量”而不是所有的训练数据即可。

为什么非支持向量对应的 α 等于零呢？直观上来理解的话，就是这些“后方”的点——正如我们之前分析过的一样，对超平面是没有影响的，由于分类完全有超平面决定，所以这些无关的点并不会参与分类问题的计算，因而也就不会产生任何影响了。这个结论也可由刚才的推导中得出，回忆一下我们刚才通过 Lagrange multiplier 得到的目标函数：

max α i \geq 0 L (w, b, α) = max α i \geq 0 1 2 ∥ w ∥ 2 - \sum i = 1 n α i (y i (w T x i + b) - 1)

注意到如果 xi 是支持向量的话，上式中红颜色的部分是等于 0 的（因为支持向量的 functional margin 等于 1 ），而对于非支持向量来说，functional margin 会大于 1 ，因此红颜色部分是大于零的，而αi 又是非负的，为了满足最大化，αi 必须等于 0 。这也就是这些非 Supporting Vector 的点的悲惨命运了。

嗯，于是呢，把所有的这些东西整合起来，得到的一个 maximum margin hyper plane classifier 就是支持向量机（Support Vector Machine），经过直观的感觉和数学上的推导，为什么叫“支持向量”，应该也就明了了吧？当然，到目前为止，我们的 SVM 还比较弱，只能处理线性的情况，不过，在得到了 dual 形式之后，通过 Kernel 推广到非线性的情况就变成了一件非常容易的事情了。不过，具体细节，还要留到下一次再细说了。

0 0