机器学习算法（分类算法）—支持向量机（3)

来源：互联网发布：上海姑娘知乎编辑：程序博客网时间：2024/05/16 23:40

一、线性支持向量机的概念

线性支持向量机是针对线性不可分的数据集的，这样的数据集可以通过近似可分的方法实现分类。对于这样的数据集，类似线性可分支持向量机，通过求解对应的凸二次规划问题，也同样求得分离超平面

$w^\ast \cdot x+b^\ast =0$

以及相应的分类决策函数

$f\left ( x \right )=sign\left ( w^\ast \cdot x+b^\ast \right )$

二、与线性可分支持向量机的比较

线性支持向量机与线性可分支持向量机最大的不同就是在处理的问题上，线性可分支持向量机处理的是严格线性可分的数据集，而线性支持向量机处理的是线性不可分的数据集，然而，在基本的原理上他们却有着想通之处。这里的线性不可分是指数据集中存在某些点不能满足线性可分支持向量机的约束条件： $y_i\left ( w\cdot x_i+b \right )-1\geq 0$ 。

具体来讲，对于特征空间上的训练数据集 $T$ ，且 $T$ 不是线性可分的，即存在某些特异点不满足 $y_i\left ( w\cdot x_i+b \right )-1\geq 0$ 的约束条件，若将这些特异点去除，那么剩下的数据点是线性可分的，由此可见，线性可分支持向量机是线性支持向量机的特殊情况。为了解决这样的问题，对每个样本点 $\left ( x_i,y_i \right )$ 引入一个松弛变量 $\xi _i$ ，且 $\xi _i\geq 0$ ，则上述的约束条件被放宽，即：

$y_i\left ( w\cdot x_i+b \right )\geq 1-\xi _i$

此时目标函数变为：

$\frac{1}{2}\left \| w \right \|^2+C\sum_{i=1}^{N}\xi _i$

其中 $C$ 称为惩罚参数，且 $C> 0$ 。在线性支持向量机中加入了惩罚项，与线性可分支持向量的应间隔最大化相对应，在线性支持向量机中称为软间隔最大化。

三、线性支持向量机的原理

由上所述，我们得到线性支持向量机的原始问题：

$\min_{w,b,\xi }\frac{1}{2}\left \| w \right \|^2+C\sum_{i=1}^{N}\xi_i$

$s.t.\; \begin{matrix} y_i\left ( w\cdotx_i+b \right )\geq 1-\xi_i;\; i=1,2,\cdots,N\\ \xi_i\geq 0;\; i=1,2,\cdots,N \end{matrix}$

接下来的问题就变成如何求解这样一个最优化问题(称为原始问题)。引入拉格朗日函数：

$L\left ( w,b,\xi,\alpha ,u \right )=\frac{1}{2}\left \| w \right \|^2+C\sum_{i=1}^{N}\xi_i-\sum_{1}^{N}\alpha _i\left ( y_i\left ( w\cdotx_i+b \right )-1+\xi_i \right )-\sum_{i=1}^{N}u_i\xi_i$

其中， $\alpha _i\geq 0,\; u\geq 0$ 。

此时，原始问题即变成

$\min_{w,b,\xi}\max_{\alpha ,u}L\left ( w,b,\xi,\alpha ,u \right )$

利用拉格朗日函数的对偶性，将问题变成一个极大极小优化问题：

$\max_{\alpha ,u}\min_{w,b,\xi}L\left ( w,b,\xi,\alpha ,u \right )$

首先求解 $\min_{w,b,\xi}L\left ( w,b,\xi,\alpha ,u \right )$ ，将拉格朗日函数分别对 $w,b,\xi$ 求偏导，并令其为0：

$\left\{\begin{matrix} \frac{\partial L\left ( w,b,\xi,\alpha ,u \right )}{\partial w}=w-\sum_{i=1}^{N}\alpha _iy_ix_i=0\\ \frac{\partial L\left ( w,b,\xi,\alpha ,u \right )}{\partial b}=-\sum_{i=1}^{N}\alpha _iy_i=0\\ \frac{\partial L\left ( w,b,\xi,\alpha ,u \right )}{\partial \xi_i}=C-\alpha _i-u_i=0 \end{matrix}\right.$

即为：

$\left\{\begin{matrix} w=\sum_{i=1}^{N}\alpha _iy_ix_i\\ \sum_{i=1}^{N}\alpha _iy_i=0\\ C-\alpha _i-u_i=0 \end{matrix}\right.$

将其带入拉格朗日函数，即得：

$\min_{w,b,\xi}L\left ( w,b,\xi,\alpha ,u \right )=-\frac{1}{2}\sum_{i=1}^{N}\sum_{j=1}^{N}\alpha _i\alpha _jy_iy_j\left ( x_i\cdot x_j \right )+\sum_{i=1}^{N}\alpha _i$

第二步，求 $\max_{\alpha ,u}\min_{w,b,\xi}L\left ( w,b,\xi,\alpha ,u \right )$ ，即求：