线性可分SVM与硬间隔最大化

来源：互联网发布：wnba赛果数据编辑：程序博客网时间：2024/05/12 15:36

线性可分支持向量机

定义

给定线性可分训练数据集，通过间隔最大化或等价求解相应凸二次规划问题学习得到的分离超平面为
w∗⋅x+b∗=0
以及相应的分类决策函数
f(x)=sign(w∗⋅x+b∗)
称为线性可分支持向量机。

函数间隔与几何间隔

函数间隔

对于给定的训练数据集T和超平面(w,b)，定义超平面(w,b)关于样本点(xi,yi)的函数间隔为
γ^i=yi(w⋅xi+b)
定义超平面(w,b)关于训练数据集T的函数间隔为超平面(w,b)关于T中所有样本点(xi,yi)的函数间隔之最小值，即
γ^=mini=1,...,Nγ^i

函数间隔可以表示分类预测的正确性和确信度，但是选择分离超平面时，只有函数间隔还不够。因为成比例地改变w和b，超平面没有改变，函数间隔却变为2倍。

几何间隔

对分离超平面的法向量w进行约束，使得间隔是确定的，这时就成了几何间隔。
γi=yi(w⋅xi+b||w||)
γ=mini=1,...,Nγi
超平面关于样本点的几何间隔一般是实例点到超平面的带符号距离，当样本点被正确分类时，就是距离。

间隔最大化

最大间隔分离超平面

求一个几何间隔最大的分离超平面。

max w, b γ s . t . y i (w \cdot x i + b | | w | |) \geq γ, i = 1, 2, . . ., N

根据几何间隔与函数间隔关系，改写为

max w, b γ ^ | | w | | s . t . y i (w \cdot x i + b) \geq γ^, i = 1, 2, . . ., N

函数间隔

γ^的取值并不影响最优化问题的解。取

γ^=1,并将最大化

1||w||转化为等价的最小化

12||w||2。
得到以下的线性可分SVM的最优化问题。

min w, b 1 2 | | w | | 2 (7.13) s . t . y i (w \cdot x i + b) - 1 \geq 0 (7.14)

这是一个凸优化问题同时是一个凸二次规划问题。

支持向量和间隔边界

在线性可分情况下，训练数据集的样本点中与分离超平面距离最近的样本点的实例称为支持向量。也就是使得不等式约束yi(w⋅xi+b)−1≥0等号成立的点，即
yi(w⋅xi+b)−1=0
正例点和分例点支持向量所在的间隔边界之间的距离为2||w||。
在决定分离超平面时，只有支持向量起作用。

学习的对偶算法

对于原始最优化问题，应用拉格朗日对偶性，通过求解对偶问题的到原始问题的最优解，这就是线性可分SVM的对偶算法。
优点
1. 对偶问题往往更容易求解
2. 自然引入和函数，进而推广到非线性分类问题

拉格朗日函数

L(w,b,a)=12||w||2−∑Ni=1aiyi(w⋅xi+b)+∑Ni=1ai (7.18)，其中ai≥0

拉格朗日对偶问题

根据拉格朗日对偶性，原始问题的对偶问题是极大极小问题：
maxaminw,bL(w,b,a)
为了得到对偶问题的解，先求L对w,b的极小，再求对a的极大
1. 求minw,bL(w,b,a)

\nabla w L (w, b, a) \nabla b L (w, b, a) 得 w \sum i = 1 N = w - \sum i = 1 N a i y i x i = 0 = - \sum i = 1 N a i y i = 0 = \sum i = 1 N a i y i x i (7.19) a i y i = 0 (7.20)

将式(7.19)带入拉格朗日函数(7.18)，并利用式(7.20)，得

L(w,b,a)=−12∑i=1N∑j=1Naiajyiyj(xi⋅xj)+∑i=1Nai
即

minw,bL(w,b,a)=−12∑i=1N∑j=1Naiajyiyj(xi⋅xj)+∑i=1Nai
2. 求

minw,bL(w,b,a)对a得极大，即是对偶问题

max a - 1 2 \sum i = 1 N \sum j = 1 N a i a j y i y j (x i \cdot x j) + \sum i = 1 N a i s . t . \sum i = 1 N a i y i = 0 a i \geq 0, i = 1, 2, . ., N

将上式目标函数由求极大转成求极小，得到下面与之等价得对偶最优化问题。

min a 1 2 \sum i = 1 N \sum j = 1 N a i a j y i y j (x i \cdot x j) - \sum i = 1 N a i (7.22) s . t . \sum i = 1 N a i y i = 0 (7.23) a i \geq 0, i = 1, 2, . ., N (7.24)

由于原始问题(7.13)-(7.14)满足弱化的Slater条件，对偶问题(7.22)-(7.24)的最优值和原始问题最优值相同，设

w∗,b∗,是原始问题最优解，

a∗是对偶问题最优解，根据KKT条件，

w∗,b∗,a∗满足：

1 - y i (w * \cdot x i + b *) a * i a * i \cdot [1 - y i (w * \cdot x i + b *)] \nabla w L (w *, b *, a *) \nabla b L (w *, b *, a *) = \sum i = 1 N a * i y i \leq 0 \geq 0 = 0 = w * - \sum i = 1 N a * i y i x i = 0 (7.27) = 0

由此得

w∗=∑ia∗iyixi
其中至少由一个

a∗j>0（反证法），对此j有

yj(w∗⋅xj+b∗)−1=0( 7.28)
将(7.27)带入(2.28)，并有

y2j=1，即得

b∗=yj−∑i=1Na∗iyi(xi⋅xj)
由此，分离超平面可以写成

∑i=1Na∗iyi(x⋅xi)+b∗
决策函数

f(x)=sign(∑i=1Na∗iyi(x⋅xi)+b∗) (7.30)
也就是说，分类决策函数只依赖于输入x和训练样本输入的内积。式(7.30)称为线性可分SVM的对偶形式。

支持向量

训练集中对应于a∗i>0的样本点(xi,yi)的实例xi称为支持向量。
由KKT互补松弛条件可以推得，支持向量一定在间隔边界上。

参考文献

《统计学习方法》第7章

阅读全文

0 0