SVM——（七）SMO（序列最小最优算法）

来源：互联网发布：office2007办公软件编辑：程序博客网时间：2024/05/20 13:37

在说SMO (Sequential minimal optimization)之前，先介绍一种与之类似的算法，坐标上升（下降）算法.

1.Coordinate ascent

所谓坐标上升（下降）指的是同一个算法，只是若实际问题是求极大值则是上升，反之为下降。我们知道梯度下降算法在每次迭代过程中都是沿着梯度的（反）方向进行的；而坐标下降算法则是在每次迭代中分步沿着你n个(n为特征维度)方向进行的。下图是2维情况下，两者求解的示意图。

这里写图片描述

具体的就是每次只把第i个变量看做是未知数，其他看做常数进行求导，令为0解出第i个变量。求出所有参数的表达式后，利用旧的参数一次更新得到每一个新的参数。也就是：梯度下降强调所有参数同时（simultaneously)更新,而坐标下降则是每个参数分别更新

下面是一个两者的一个代码片段：

% gradient descentfor i = 1:200    grad(1)=4*x1-2*x2-4;    grad(2)=-2*x1+10*x2-24;% 都是用旧的参数得到梯度    x = x-alpha*grad;% 同时更新得到新的参数    f1 = f(x(1),x(2));end% coordinate descent for i = 200    x1=1+0.5*x2;    x2=2.4+0.2*x1;% 用上一步更新的参数，来更新另外一个参数，未同时    f2 = f(x1,x2);end

源码地址

2.SMO算法

如下我们要之前推导出来要优化的目标函数：

max α s . t . W (α) = \sum i = 1 m α i - 1 2 \sum i, j = 1 m y (i) y (j) α i α j ⟨ x (i), x (j) ⟩ 0 \leq α i \leq C, i = 1, . . ., m \sum i = 1 m α i y (i) = 0 (2.1)

照着上面的想法，我们是否也能将同样的思路用在此处呢？答案是否定的，因为此处多了一个约束条件。

例如，我们将α1看做是未知量，其它视为常量，那么由约束条件我们可以得到：

α 1 y (1) = - \sum i = 1 m α i y (i) 两 边 同 乘 以 y (1) α 1 = - y (1) \sum i = 2 m α i y (i) (2.2)

由此我们可以看出α1不可能是一个变量，因为它是右边一串常数的和；也就是说有了(2.1)这个约束条件，就不可能将其中一个αi视为变量，其余的视为常量。

那怎么办呢？既然一个不行，那就同时将两个视为变量，其余的视为常量。不失一般性，我们任选两个，记为α1,α2。由(2.1)我们同样可以得到(2.2)且还有：

α 1 y (1) + α 2 y (2) = - \sum i = 3 m α i y (i) = ζ (2.3)

此时我们再来看(2.3)，虽说α1y(1)+α2y(2)依旧等于一个常量，但是α1，α2确是可以自由变化的（注：两者事实上只有一个事变量，因为一个确定了，另一个也就确定了）。

由(2.3)我们可以画出下面这条直线：

这里写图片描述

由此我们可以得到：

根据约束条件0≤αi≤C知，可行解位于‘盒子’[0，C],[C,0]中；
根据约束条件(2.3)知，可行解同时又位于直线α1y(1)+α2y(2)=ζ上；
由2,3知，最优解位于盒子中的线段上；
此图为y(1),y(2)异号时的情况；

假设(2.1)的初始可行解为αold1,αold2，最优解为αnew1,αnew2，并且假设在沿着约束（直线）方向未经剪切时α2的最优解为αnew,unc2则有：

L \leq α n e w 2 \leq H (2.4)

且当

y(1)≠y(2)(即异号)时

L = max (0, α o l d 2 - α o l d 1), H = min (C, C + α o l d 2 - α o l d 1) (2.5)

当

y(1)=y(2)时

L = max (0, α o l d 2 + α o l d 1 - C), H = min (C, α o l d 2 + α o l d 1) (2.6)

举例：

这里写图片描述

⟹ ⟹ ⟹ (α o l d 1, α o l d 2) = (4, 7) L = max 0, 7 + 4 - 8) = 3; H = min (8, 7 + 4) = 8; 3 \leq α n e w 2 \leq 8

由(2.3)知：

α 1 = (ζ - α 2 y (2)) y (1) (2.7)

因此,

W (α) = W (α 1, α 2, . . ., α m) = W ((ζ - α 2 y (2)) y (1), α 2, . . . α m) (2.8)

由于我们是将α3,...αm视为常数的，所以此时W(α)实质上是一个仅关于α2的二次函数W(α2)。为什么是二次？由(2.1)可知，其最高次数仅为2。所以W(α2)又可以表示成a(α2)2+bα2+c的形式。如果我们暂时先忽略条件(2.4)，然后令其导数为0，则很容易求得α2未剪切的解αnew,unc2。

且剪切后的解为：

α n e w 2 ⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ H, α n e w, u n c 2, L, i f α n e w, u n c 2 > H i f L \leq α n e w, u n c 2 \leq H i f α n e w, u n c 2 < L

最后，在计算得到

αnew2之后，就可以利用公式

(2.3)求得

αnew1

以上都是根据cs229-notes3.pdf整理的笔记，琢磨了很久还是没有彻底将SMO算法弄明白，姑且先放着，等到后续实在要用到再探究，因为在SVM这章着实停留得太久了，前前后后一个月。我相信一口气是吃不成一个胖子的，循序渐进。

后面我就直接通过scikit-learn来介绍一下里面SVM的主要用法，见Scikit-learn——SVM

SVM——（七）SMO（序列最小最优算法）
SVM——（六）软间隔目标函数求解
SVM——（五）线性不可分之核函数
SVM——（四）目标函数求解
SVM——（三）对偶性和KKT条件（Lagrange duality and KKT condition）
SVM——（二）线性可分之目标函数推导方法2
SVM——（一）线性可分之目标函数推导方法1

参考

《统计学习方法》李航
cs229-notes3.pdf
smo.pdf

阅读全文

0 0