支持向量机（SVM）

来源：互联网发布：软件销售工作好么编辑：程序博客网时间：2024/06/05 09:11

1 间隔与支持向量机

分类学习最基本的想法就是基于训练集在样本空间找到一个划分超平面，将不同类别的样本分开。划分超平面可以通过如下的线性方程来描述：

$\mathbf{w}^{T}\mathbf{x}+b=0$ (1)

其中 $\mathbf{w}=(w1;w2;...;wd)$ 为法向量，决定了超平面的方向； $b$ 为位移项，决定了超平面和原点之间的距离。样本空间中任意点 $\mathbf{x}$ 到超平面 $(\mathbf{w},b)$ 的距离可写为：

$r=\frac{|\mathbf{w}^{T}x+b|}{\left \| \mathbf{w} \right \|}$ (2)

令

$\left \{ \begin{matrix} \mathbf{w}^{T}\mathbf{x}_{i}+b\geq +1,\; y_{i}=+1 \\ \mathbf{w}^{T}\mathbf{x}_{i}+b\leqslant +1,\; y_{i}=-1 \end{matrix} \right.$ (3)

如下图使得（3）等号成立的距离超平面最近的这几个训练样本点称为“支持向量”（support vector），两个异类支持向量到超平面的距离之和为

$\gamma =\frac{2}{\left \| \mathbf{w }\right \|}$ (4)

其被称为间隔（margin）

欲找到具有最大间隔的划分超平面，也就是要找到满足（3）式的参数 $\mathbf{w}$ 和 $b$ ，使得 $\gamma$ 最大，即

$max_{\mathbf{w},b}\frac{2}{\left \| w \right \|}$

$s.t.\: y_{i}(\mathbf{w}^{T}x_{i}+b)\geq 1,\: i=1,2,...,m$ (5)

显然，为了最大化间隔，仅需最大化 $\left \| \mathbf{w} \right \|^{-1}$ ，这等价于最小化 $\left \| \mathbf{w} \right \|^{2}$ ，于是（5）可重写为：

（6）

这就是支持向量机（support vector machine, SVM）的基本型。

2 对偶问题

通过上述描述我们想要通过（6）来得到最大间隔划分超平面所对应的模型

（7）

（6）式本身是一个凸二次规划（convex quadratic programming）问题，能直接用现成的优化计算包求解，但是可以用更高效的办法。

整个思路：为确定函数

中的参数 $\mathbf{w}$ 和 $b$ ，寻找最大分类间隔，导出 $\frac{1}{2}\left \| \mathbf{w }\right \|^{2}$ ，继而引入拉入拉格朗日函数，化为单一因子对偶变量 $\alpha$ 的求解，如此，求 $\mathbf{w},b$ 与 $\alpha$ 等价，而求 $\alpha$ 即为SMO。

对式（6）使用拉格朗日乘子法可得到其“对偶问题”（dual problem）：

$L(\mathbf{w},b,\mathbf{\alpha} )=\frac{1}{2}\left \| \mathbf{w} \right \|^{2}+\sum_{i=1}^{m}\alpha _{i}(1-y_{i}(\mathbf{w}^{T}x_{i}+b))$ (8)

其中 $\mathbf{\alpha}=(\alpha _{1};\alpha _{2};...;\alpha _{m})$ 。令 $L(\mathbf{w},b,\mathbf{\alpha} )$ 对 $\mathbf{w}$ 和 $b$ 的偏导为零可得：

（9）

$0=\sum_{i=1}^{m}\alpha _{i}y_{i}$ (10)

将（9）带入（8）再考虑（10）的约束，就得到了（6）的对偶问题：

（11）

求解 $\alpha$ 后即可得到模型：

（12）

上述过程需满足KKT(Karush-Kuhn-Tucker)条件，即要求：

$\left\{\begin{matrix} \alpha _{i}\geq 0\\ y_{i}f(x_{i})-1\geq 0 \\ \alpha _{i}(y_{i}f(x_{i})-1)=0 \end{matrix}\right.$ (13)

若 $\alpha _{i}>0$ ,则 $y_{i}f(\mathbf{x}_{i})=1$ ，所对应的样本点位于最大间隔边界上，是一个支持向量，这显示出支持向量的一个重要性质：训练完成后，大部分的训练样本都不需要保留，最终模型仅与支持向量有关。

（11）是一个二次规划问题，采用二次规划算法求解时，当训练样本较多时，开销很大。因此，采用SMO（Sequential Minimal Optimization）的高效算法。

SMO的基本思路是先固定 $\alpha _{i}$ 之外的所有参数，然后求 $\alpha _{i}$ 上的极值。由于存在约束 $0=\sum_{i=1}^{m}\alpha _{i}y_{i}$ ，若固定 $\alpha _{i}$ 外的其他变量，则 $\alpha _{i}$ 可由其他变量导出。于是SMO每次选择两个变量 $\alpha _{i}$ 和 $\alpha _{j}$ ，并固定其他参数，这样，在参数初始化时，SMO不断执行如下两个步骤直至收敛：

1）选取一对需要更新的变量 $\alpha _{i}$ 和 $\alpha _{j}$ ；

2）固定 $\alpha _{i}$ 和 $\alpha _{j}$ 以外的参数，求解（11）获得更新后的 $\alpha _{i}$ 和 $\alpha _{j}$

选择 $\alpha _{i}$ 和 $\alpha _{j}$ 时，选取的两变量所对应的样本之间的间隔最大，直观的解释就是：这样的两个变量有很大的差别，对它们进行更新会给目标函数更大的变化。

仅考虑 $\alpha _{i}$ 和 $\alpha _{j}$ 时，（11）中的约束条件可重写为：

$\alpha _{i}y _{i}+\alpha _{j}y _{j}=c,,\alpha _{i}\geq 0,\alpha _{j}\geq 0,$ (14)

其中

$c=-\sum_{k\neq i,j}\alpha _{k}y _{k}$ (15)

用（14）中的等式消去（11）中的 $\alpha _{j}$ ，则得到一个关于变量 $\alpha _{i}$ 的单变量二次规划问题，仅有的约束为 $\alpha _{i}\geq 0$ ，这样的二次规划问题是有闭式解的，不必调用优化算法即可高效的计算出更新后的 $\alpha _{i}$ 和 $\alpha _{j}$ 。

然后就是确定偏移项 $b$ ，主要到对支持向量 $(\mathbf{x}_{s},y_{s})$ ，都有 $y_{s}f(\mathbf{x}_{s})=1$ ，即

$y_{s}(\sum_{i\in S}\alpha _{i}y_{i}\mathbf{x}_{i}^{T}\mathbf{x}_{s}+b)=1$ (16)

其中 $S$ 为所有支持向量的下标集。理论上可选取任意支持向量机并通过求解（16）式获得b，但现实任务中常采用一种鲁棒性的做做法:使用所有支持向量求解的平均值

$b=\frac{1}{|S|}\sum_{s\in S}(1/y_{s}-\sum_{i\in S}\alpha _{i}y_{i}\mathbf{x}_{i}^{T}\mathbf{x}_{s})$ （17）

3 核函数

前边的讨论中样本是线性可分的，即存在一个划分超平面能将训练样本正确分类，然而在现实任务中，原始样本空间内也许并不存在一个能正确划分两类样本的超平面，对这样的问题，可将样本从原始空间映射到一个更高维的特征空间，使得样本在这个特征空间内线性可分。幸运的是，若原始空间是有限维的，即属性数有限，那么一定存在一个高维的特征空间使样本可分。

令 $\phi (\mathbf{x})$ 表示 $\mathbf{x}$ 映射后的特征向量，于是在特征空间中划分超平面所对应的模型可表示为：

$f(\mathbf{x})=\mathbf{w}^{T}\phi (\mathbf{x})+b$ (18)

类似（6），有

$\begin{matrix} min_{\mathbf{w},b}\frac{1}{2}\left \| \mathbf{w} \right \|^{2} \\ s.t.\: y_{i}(\mathbf{w}^{T}\phi (\mathbf{x})+b)\geq 1,\: i=1,2,..m& \end{matrix}$ (19)

其对偶问题为

$\begin{matrix} max_{\alpha b}\sum_{i=1}^{m}\alpha _{i}-\frac{1}{2}\sum_{i=1}^{m}\sum_{j=1}^{m} \alpha _{i}\alpha _{j}\phi (\mathbf{x_{i}})^{T}\phi (\mathbf{x_{j}})\\ s.t.\: \sum_{i=1}^{m}\alpha _{i}y_{i}=0\\ \alpha _{i}\geq 0 \end{matrix}$ (20)

求解（20）涉及到计算 $\phi (\mathbf{x_{i}})^{T}\phi (\mathbf{x_{j}})$ ，这是样本 $\mathbf{x_{i}}$ 和 $\mathbf{x_{j}}$ 映射到高维特征空间之后的内积，通常直接计算 $\phi (\mathbf{x_{i}})^{T}\phi (\mathbf{x_{j}})$ 是比较困难的，为避开这样，可以设想一个函数：

$k(\mathbf{x}_{i},\mathbf{x}_{j})=<\phi (\mathbf{x}_{i}),\phi (\mathbf{x}_{j})>=\phi (\mathbf{x}_{i})^{T}\phi (\mathbf{x}_{j})$ (21)

即 $\mathbf{x_{i}}$ 和 $\mathbf{x_{j}}$ 在特征空间的内积等于它们在原始样本空间中通过函数 $k(\cdot ,\cdot )$ (核函数）计算的结果。于是（20）可重写为：

（22）

求解后可得到：

$f(\mathbf{x})=\sum_{i=1}^{m}\alpha _{i}y_{i}k(\mathbf{x},\mathbf{x}_{j})+b$ (23)

核函数的存在问题：

Mercer定理：

如果函数K是

上的映射（也就是从两个n维向量映射到实数域）。那么如果K是一个有效核函数（也称为Mercer核函数），那么当且仅当对于训练样例 clip_image065[7]

，其相应的核函数矩阵是对称半正定的。

常用核函数：

1 线性核函数

$k(\mathbf{x}_{i},\mathbf{x}_{j})=\mathbf{x}_{i}^{T}\mathbf{x}_{j}$

2 多项式核

$k(\mathbf{x}_{i},\mathbf{x}_{j})=(\mathbf{x}_{i}^{T}\mathbf{x}_{j}+1)^{d}$

3 高斯核

4 拉普拉斯核

$k(\mathbf{x}_{i},\mathbf{x}_{j})=exp(-\frac{\left \|\mathbf{x}_{i}-\mathbf{x}_{j} \right \|}{\sigma })$

5 Sigmoid核

$k(\mathbf{x}_{i},\mathbf{x}_{j})=tanh(-\beta \mathbf{x}_{i}^{T}\mathbf{x}_{j}+\theta )$

此外，还可以通过组合得到：

若 $k_{1}$ 和 $k_{2}$ 位核函数， $\gamma _{1}$ 和 $\gamma _{2}$ 为任意正数，

1）核函数的线性组合： $\gamma _{1}k _{1}+\gamma _{2}k _{2}$

2)核函数的直积： $k _{1}\otimes k _{2} =k _{1}(\mathbf{x,z})k _{2}(\mathbf{x,z})$

3)任意函数 $g(\mathbf{x})$ : $k(\mathbf{x},\mathbf{z})=g(\mathbf{x})k_{1}(\mathbf{x},\mathbf{z})g(\mathbf{z})$

4 软间隔与正则化

在现实任务中很难确定合适的核函数使得训练样例在特征空间线性可分；退一步说，即使恰好找到个某个核函数使训练样例在特征空间线性可分，也很难断定这个貌似线性可分的核函数是不是由于过拟合多造成的。

缓解该问题的一个办法是允许SVM在一些样本上出错，为此，要引入“软间隔”（soft margin ）的概念。

前边所介绍的所有样本都必须划分正确，这成为“硬间隔”(hard margin)，当引入软间隔时，就引入了松弛变量 $\zeta _{i}\geq 0$ ,在最大化间隔的同时，不满足约束样本应尽可能少，于是优化目标可写为：

$\begin{matrix} min_{\zeta ,\mathbf{w},b}\frac{1}{2}\left \| \mathbf{w} \right \|^{2}+C\sum_{i=1}^{m}\zeta _{i}\\ s.t.\: y_{i}(\mathbf{w}^{T}\mathbf{x}_{i}+b)\geq 1-\zeta _{i}\\ \zeta _{i}\geq 0,\: i=1,2,..,m \end{matrix}$ (24)

这就是“软间隔支持向量机”，其中C为惩罚因子。依据SVM的推到可得：

（25）（其中的d相当于本文的y，敲公式太麻烦了，，，）

阅读全文

0 0