Andrew Ng - SVM【3】最后的面纱-核函数&SMO

来源：互联网发布：美股王软件编辑：程序博客网时间：2024/06/10 09:54

最后的面纱-核函数&SMO

1. 核函数

在Ng之前将线性回归的篇幅中，有一个预测房价的问题，输入x是房子的面积，假设我们用三次函数拟合数据，这是一个非线性的问题，用ϕ表示特征映射，会得到：

ϕ (x) = ⎡ ⎣ ⎢ x x 2 x 3 ⎤ ⎦ ⎥

如果我们使用对

ϕ(x)的学习代替对

x的学习（为了做到这一点，我们将使用

ϕ(x)换掉前边算法中的

x），回看一下我们之前的几个公式，凡是

x出现的地方都是内积

⟨x,z⟩的形式，也就意味着所有的这种形式我们都可以用

⟨ϕ(x),ϕ(z)⟩代替，即定义：

K(x,z)=ϕ(x)Tϕ(z).

这样我们的问题又回到了线性！将高维映射到了低维。但是同时又有一个问题出现了，在计算内积

⟨ϕ(x),ϕ(z)⟩的时候，可能

ϕ(x)本身的维度会非常高，计算代价变得非常之大。当然，我们必须要让这种情况必须不是问题，我们甚至根本不用明确的写出

ϕ(x)。Your eyes please follow me，假设

x,z∈R，

K(x,z)=(xTz)2，即：

K (x, z) = (\sum i = 1 n x i z i) ⎛ ⎝ \sum j = 1 n x j z j ⎞ ⎠ = \sum i = 1 n \sum j = 1 n x i x j z i z j = \sum i = 1 n \sum j = 1 n (x i x j) (z i z j)

注意到当

n=3时：

ϕ (x) = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ x 1 x 1 x 2 x 2 x 3 x 3 x 1 x 1 x 2 x 2 x 3 x 3 x 1 x 1 x 2 x 2 x 3 x 3 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

计算

ϕ(x)Tϕ(z)的时间复杂度以下就飙升到了

O(n2)，但是计算

(xTz)2的时间复杂度却是

n（非常之牛逼）。再看一组爽一下：

K (x, z) = (x T z + c) 2 = \sum i = 1 n \sum j = 1 n (x i x j) (z i z j) + \sum i = 1 n (2 c - - \sqrt x i) (2 c - - \sqrt z i) + c 2

注意到当

n=3时：

ϕ (x) = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ x 1 x 1 x 2 x 2 x 3 x 3 x 1 x 1 x 2 x 2 x 3 x 3 x 1 x 1 x 2 x 2 x 3 x 3 2 c - - \sqrt x 1 2 c - - \sqrt x 2 2 c - - \sqrt x 3 c ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

我们可以观察到

ϕ(x)中即包含了一次项又包含了二次项，而c的作用则是它可以很方便的控制一次项与二次项之间的相对权重。而我们又上演了精彩一幕，只用

O(n)的时间复杂度（计算

xTz+c)解决一个时间复杂度为

O(n2)的问题（

⟨ϕ(x),ϕ(z)⟩）。而上一核函数更一般的形式如下：

K(x,z)=(xTz+c)d

这对应着

(n+dd)（

在n+d个特征单项式中选择d个特征单项式?），其数量级应该是

(n+d)d的随d呈指数上升，所以

ϕ将是一个维度很高的特征向量。但是！你依然可以在

O(n)的时间复杂度将其搞定！
所以说核函数的威力很大。那么当遇到一个机器学习问题的时候，我们应该怎样选择核函数呢？给定一组属性

x并将其转化为一个特征向量

ϕ(x)；另一组属性

z并将其转化为一个特征向量

ϕ(z)。所以核函数做的事情就是计算

⟨ϕ(x),ϕ(z)⟩。我们说如果

x和

z非常相似，那么

ϕ(x)和

ϕ(z)大概会指向相同的方向，所以内积会非常大；而如果

x和

z差别较大，那么

ϕ(x)和

ϕ(z)大概会指向相反的方向，所以内积会非常小。这种直观的理解和表述可能不是非常严谨，但在实际中却能发挥很好的效用。所以说当我们遇到一个新的机器学习问题，如果我们希望学习算法认为

x和

z是相似的，那么我们可以使

K(x,z)取一个较大的值；如果我们希望学习算法认为

x和

z不一样，那么我们可以使

K(x,z)取一个较小的值（注意：

K(x,z)是内积，大于0)。
所以，当我们需要度量

x和

z的相似度的时候，核函数将会是一个很好的方式。对于下边的核函数：

K(x,z)=exp(−||x−z||22σ2)
当

x和

z相近的时候函数值接近于1；而当

x和

z相差很远的时候函数值接近于0（这个核函数的特征映射

ϕ是无线维的）。实际上还存在一个问题，我们怎么确定一个核函数是一个有效的核函数呢？答曰：

∃ϕs.t.K(x,z)=⟨ϕ(x),ϕ(z)⟩
我们通常假设

K是一个合理的

核函数，考虑对于一个有限集

S={x(1),...,x(m)}，再定义一个

m∗m的

矩阵K使得

Ki,j=K(x(i),x(j))，将

K叫做核矩阵。则有：

Ki,j=K(x(i),x(j))=ϕ(x(i))Tϕ(x(j))=ϕ(x(j))Tϕ(x(i))=K(x(j),x(i))=Kj,i
所以

K是一个对称矩阵。用

ϕk(x)表示

ϕ(x)的第

k个元素，这时对于任意一个

m维向量

z：

z T K z = \sum i = 1 m \sum j = 1 m z i K i j z j = \sum i = 1 m \sum j = 1 m z i ϕ (x (i)) T ϕ (x (j)) z j = \sum i = 1 m \sum j = 1 m z i \sum k = 1 m ϕ k (x (i)) ϕ k (x (j)) z j = \sum k = 1 m \sum i = 1 m \sum j = 1 m z i ϕ k (x (i)) ϕ k (x (j)) z j = \sum k = 1 m (\sum i = 1 m z i ϕ k (x (i))) 2 \geq 0.

因为

zTKz≥0，说明

K是一个半正定的矩阵（

K≥0）。因此如果

K是一个有效的核（因为这个名字是由Mercer提出来的，历史原因，我们也将有效核称为Mercer核），则对应的和举证应该是半正定的（注意反之亦成立）。这就给我们提供了一种测试核函数是否合法的方式，

K(x,z)是一个有效核的充要条件是，对于任意

x(1),...x(m),(m<∞)，核矩阵都是半正定的。到这里，相信我们对核函数都有了一个比较清晰的认识，有内积

⟨x,z⟩的地方直接换成

K(x,z)，使本来在低维线性不可分的问题转化到高维用超平面划分，但计算量还是维持在很高效的范围内，很爽！不过，还有个问题，假如数据在高维依然是不可分的呢？让我们引入下一话题：

l1norm软边界

SVM。

2. l1 norm软边界SVM

直奔主题，先看两张图：

左图是当界限比较明显的时候比较合理的分割超平面，而作为对比，当有一个异常点出现的时候，按照我们前面的分析和处理方法，将会得到和右图实线差不多的一个分割超平面，这个就有点飘了。所以为了让分类器对有问题的点不是那么敏感，我们把优化问题改写成如下的形式（用

l1范式−−什么是l1范式？有什么用呢？）：

m i n γ, ω, b 1 2 | | ω | | 2 + C \sum i = 1 m ξ i s . t . y (i) (ω T x (i) + b) \geq 1 - ξ i, i = 1, . . ., m ξ i \geq 0, i = 1, . . ., m .

这实际上市允许求解超平面时函数间隔可以小于1，并且对于那些函数间隔小于1的点（

1−ξi）我们将会施以小小的惩罚

Cξi。所以

C在这里其实扮演了一个比较重要的角色，即控制 “(1)使

||ω||2尽量的小和(2)保证尽可能多的点的函数间隔最少是1” 这两个我们需要兼顾的目标之间的权重关系。然后，像之前一样，我们将式子写成拉格朗日函数的形式：

L (ω, b, ξ, α, r) = 1 2 ω T ω + C \sum i = 1 m ξ i - \sum i = 1 m α i [y (i) ((ω) T x (i) + b) - 1 + ξ i] - \sum i = 1 m r i ξ i

然后可以求出其对偶形式为：

max α W (α) = \sum i = 1 m α i - 1 2 \sum i, j = 1 m y (i) y (j) α (i) α (j) ⟨ x (i), x (j) ⟩ . s . t . 0 \leq α i \leq C, i = 1, . . ., m \sum i = 1 m α i y (i) = 0

而对应于对偶形式，其KKT条件为：

α i α i 0 < α i = 0 \Rightarrow y (i) (ω T x (i) + b) \geq 1 = C \Rightarrow y (i) (ω T x (i) + b) \leq 1 < C \Rightarrow y (i) (ω T x (i) + b) = 1

话说，该假设的也假设了，该分析的也分析了，该优化的也优化了，万事俱备，只差一步，最后对这个对偶问题的算法实现！请看下节：SMO！

3. SMO

I. 坐标上升法
这是一个引子，这明显是一个引子。好吧我把它说出来了。
若有一个没有约束条件的优化问题如下：

max α W (α 1, α 2, . . ., α m)

坐标上升法的优化方法是：

Loopuntilconvergence:{Fori=1,...,m, {αi:=arg maxαi^ W(α1,...,αi−1,αi^,αi+1,...,αm).}}

坐标上升法保持除

αi之外的所有参数固定，然后相对于

αi求函数最大值。我们用一张图来说明一下这个算法：

这里写图片描述

从起点开始，坐标上升法每次都会取一个相对最高（图中红点），最后让问题收敛到全局最优（

话说如果没有全局最优或凹凹凸凸的是不是也能收敛到全局最优？）。当然你会问我，固定其他参数后针对一个参数求最值怎么求？快吗？

f=−x2+y2+z2，固定

y,z，

argmaxxf=0，答案是快，要快很多。

II. SMO（sequential minimal optimization-顺序最小优化算法）
拾起我们在SVM中要优化解决的问题：

max α W (α) = \sum i = 1 m α i - 1 2 \sum i, j = 1 m y (i) y (j) α (i) α (j) ⟨ x (i), x (j) ⟩ . s . t . 0 \leq α i \leq C, i = 1, . . ., m \sum i = 1 m α i y (i) = 0

面对一系列的

αi，我们是否也能固定除某一

αi以外的其他参数，从而通过迭代收敛求得全局最优？由于种种原因，答案是否定的。好吧，是因为我们有一个约束条件使得：

α1=−y(1)∑mi=2αiy(i)

当其他的值被假设固定以后，其实

α1的值也就固定了，没法优化了。没办法了？

No！为了满足那些约束条件，我们同时对两个参数进行更新：

L o o p u n t i l c o n v e r g e n c e : {1. 根 据 一 些 启 发 式 规 则 选 择 α i, α j (启 发 式 规 则 通 常 指 一 些 经 验 法 则) 2. 固 定 除 α i, α j 以 外 的 其 他 参 数 求 满 足 所 有 约 束 条 件 的 W 的 最 优 值}

有一点要注意的是，这里的收敛条件是什么呢？如果你还记得的话，我们上边其实说过：KKT。那么通常来说第二步是比较关键的，怎样在满足所有约束条件的情况下能相对于

αi,αj取得

W最优呢？假设我们选取的参数是

α1,α2，那么有：

α 1 y (1) + α 2 y (2) = - \sum i = 3 m α i y (i) = ζ （ 常 数 ）

所以能得到：

α 1 = (ζ - α 2 y (2)) y (1)

关注一下问题的约束条件：

(1) . 0 \leq α i \leq C, i = 1, . . ., m (2) . \sum i = 1 m α i y (i) = 0

下面的图片应该能说明一些问题：

这里写图片描述

将

W(α)改写一下：

W (α 1, α 2, . . ., α m) = W ((ζ - α 2 y (2)) y (1), α 2, . . ., α m)

对比原式

W(α)，再把

α3,...,αm都是常数考量进去，最后我们基本上会得到这样的式子，存在一些合适的

A,B,C使得

W(α2)=Aα22+Bα2+C，那么我们可以轻松的令二次函数导数为0求得

α2相应的值为

αnew,unclipped2（

unclipped的意思是说不用考虑约束条件）。所以我们得到

α2的更新式子为：

α n e w 2 = ⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ H α n e w, u n c l i p p e d 2 L α n e w, u n c l i p p e d 2 >H L \leq α n e w, u n c l i p p e d 2 \leq H α n e w, u n c l i p p e d 2 <L

当然得到了

αnew2我们也就得到了

αnew1。至此，我们的

SVM学习已经到了尾声，除了一小部分未解决的问题（(1)关于选取

αi和

αj的启发式规则；(2)如何计算参数b）,这一部分笔者将会后续做一个补充，但如果有兴趣大家可以自己试着解决一下。

0 0