机器学习--支持矢量机（3）

来源：互联网发布：mysql 分表编辑：程序博客网时间：2024/06/14 02:50

本文转自：

http://blog.csdn.net/linkin1005/article/details/40979019

八、核（kernel）

如果样本点为线性不可分，那么，需要将数据映射到高维空间，使在原始空间内其线性可分变为线性可分。如下图所示：

上文提到，分类器可以写成：

$w^{T}x+b=\sum_{i=1}^{m}{a_{i}y^{(i)}\left<x^{(i)},x\right>}+b$

那么，如果使用一种映射的方法，将低维数据映射到高维（ $x \rightarrow\phi(x)$ ），使得线性不可分变为线性可分。 $\phi(x)$ 称为特征映射函数，这样，分类器就变为：

$w^{T}x+b=\sum_{i=1}^{m}{a_{i}y^{(i)}\left<\phi(x^{(i)}),\phi(x)\right>}+b$

(1)实例

低维映射到高维能否将线性不可分变为线性可分呢？下面就举个例子来看。假设数据可以用决策的边界 $X_{1}^{2}+X_{2}^{2}=1$ 表示（如下图左所示），那么，利用 $Y_{1}=X_{1}^{2}$ ， $Y_{2}=X_{2}^{2}$ ， $Y_{3}=X_{1}X_{2}$ 做映射，可以得到决策边界： $Y_{1}+Y_{2}-1=0$ 。经过上述的映射变换，原来在圆内的点都在超平面的一侧（用虚线的圈圈表示），在圆外的点都在超平面的另外一侧（用X表示）（如下图右所示）。

将低维数据映射到高维空间，再计算内积，计算量非常大。而如果有一种方法能在低维数据的基础上，直接计算内积的结果，而不显式的表现出映射至高维空间这个中间过程，算法时间复杂度将降低，这里就引进了核的概念，定义：

$K(x,z)=\phi(x)^{T}\phi(z)$

我们将内积 $\left<x,z\right>$ 用核函数 $K(x,z)$ 代替。

下面看几个核函数的例子：

假设：

$\phi(x)=\begin{bmatrix}x_{1}x_{1}\\x_{1}x_{2}\\ \vdots\\ x_{2}x_{1} \\x_{2}x_{2} \\ \vdots\\x_{n}x_{n} \end{bmatrix}\quad$

那么 $\phi(x)$ 是一个n²维的向量。如果计算内积 $\phi(x)^{T}\phi(x)$ ，算法复杂度为O(n⁴)。

而 $x,z\in R^{n}$ ，令：

$K(x,z)=(x^{T}z)^{2}$

$\begin{aligned}K(x,z)&=(\sum_{i=1}^{n}{x_{i}z_{i}}))\sum_{i=1}^{n}{x_{i}z_{i}}) \\ &=\sum_{i=1}^{n}\sum_{j=1}^{n}{x_{i}x_{j}z_{i}z_{j}}\\ &=\sum_{i,j=1}^{n}(x_{i}x_{j})(z_{i}z_{j})\\&=\phi(x)^{T}\phi(x) \end{aligned}$

可以看到，计算核函数 $K(x,z)=(x^{T}z)^{2}$ 和计算向量内积 $x^{T}z$ 的结果是一致的，但仅仅需要计算内积，时间复杂度降低到了线性时间，即O(n)。

再看一个例子：令

$\phi(x)=\begin{bmatrix}x_{1}x_{1}\\x_{1}x_{2}\\ \vdots\\ x_{2}x_{1} \\x_{2}x_{2} \\ \vdots\\x_{n}x_{n}\\ \sqrt{2c}x_{1}\\ \sqrt{2c}x_{2} \\ \vdots\\ \sqrt{2c}x_{n}\\c \end{bmatrix}$

那么是一个n²+n+1维的向量，如果计算内积 $\phi(x)^{T}\phi(x)$ ，算法复杂度为O(n⁴)。

令 $K(x,z)=(x^{T}z+c)^{2}$

$\begin{aligned}K(x,z)&=\sum_{i=1}^{n}{(x_{i}z_{i})}\sum_{i=1}^{n}{(x_{i}z_{i})} \\ &=\sum_{i,j=1}^{n}{(x_{i}x_{j})(z_{i}z_{j})+\sum_{i=1}^{n}{(\sqrt{2c}x_{i})(\sqrt{2c}z_{i})+c^{2}}}\\ &=\phi(x)^{T}\phi(x) \end{aligned}$

让我们从另一视角看看核函数：直观上来说，如果 $\phi(x)$ 和 $\phi(z)$ 较为接近，那么我们可以期望 $K(x,z)=\phi(x)^{T}\phi(z)$ 较大；而 $\phi(x)$ 和 $\phi(z)$ 相差较远甚至几乎正交，那么 $K(x,z)=\phi(x)^{T}\phi(z)$ 较小。因此，我们可以认为核函数 $K(x,z)$ 在某种程度上可以度量 $\phi(x)$ 和 $\phi(z)$ ，甚至x和z的相似度。

（2）常用核函数

接着介绍两个常用的核函数：

多项式核

多项式核可以写成：

$K(x,z)=(x^{T}z+c)^{d}$

多项式核将原始值映射至 $\begin{pmatrix}n+d \\ d \end{pmatrix}$ 维空间（其中n为原始值的维度）。

高斯核

高斯核可以写成：

$K(x,z)=exp(-\frac{\left\|x-z\right\|^{2}}{2\sigma^{2}})$

高斯核形式跟高斯分布的密度函数极其相似，因此称为高斯核。高斯核中e的指数部分须计算x和z的欧几里德距离（在机器学习笔记——K-means算法V1.0中已经提到，欧几里德距离可度量数据之间的相异性），当 $K(x,z)\rightarrow 1$ 时，x和z较相似； $K(x,z)\rightarrow 0$ ，x和z较相异。

（3）有效核

定理：令K： $\mathbb{R}^{n}\times \mathbb{R}^{n} \rightarrow \mathbb{R}$ 。如果K是一个有效核，那么它的充分必要条件为：对于任意的 $\{x^{(1)},...,x^{(m)}\}$ ，（ $m<\infty$ ），核矩阵对应核（ $\small K_{i,j}=K(x^{(i)},x^{(j)})$ ）矩阵皆为对称阵，并且半正定。下面对该定理进行证明：

对称性：

$\small K_{i,j}=K(x^{(i)},x^{(j)})=\phi(x^{(i)})^{T}\phi(x^{(j)})=\phi(x^{(j)})^{T}\phi(x^{(i)})=K(x^{(j)},x^{(i)})$ $\small =K_{j,i}$

因此， $\small K_{i,j}$ 为对称阵。

半正定性：

令为向量的第k个分量，对于任意向量z，有：

$\begin{aligned} z^{T}Kz &= \underset{i}\sum \underset{j}\sum z_{i}K_{i,j}z_{j}\\&=\underset{i}\sum \underset{j}\sum z_{i}\phi(x^{(i)})^{T}\phi(x^{(j)})z_{j} \\&=\underset{i}\sum \underset{j} \sum z_{i} \underset{k} \sum \phi_{k}(x^{(i)})\phi_{k}(x^{(j)})z_{j}\\ &=\underset{k}\sum \underset{i}\sum \underset{j}\sum z_{i}\phi_{k}(x^{(i)})\phi_{k}(x^{(j)})z_{j}\\&=\underset{k}\sum(\underset{i}{\sum z_{i}\phi_{k}(x^{(i)})})^{2}\\ &\ge0 \end{aligned}$

由于z是任意的，因此，K为半正定的。
最后引用v_JULY_v博文中的例子，用以说明支持向量机的分类效果。

假设有一块农场上有狼和羊两类样本，需要修建一个篱笆，将狼和羊分隔开来，避免狼伤及到羊。下面三个图分别是三类不通的分类方法：

可以看出，Logistic模型在对训练样本的划分存在较大的误差，决策树的边界较为生硬，而SVM可以划出较为理想的决策边界。

九、离群点(outlier)和松弛变量

前文中提到的实例均为线性可分，将数据从低维映射到高维也仅仅是增加了数据线性可分的概率，但并不能保证数据线性可分。在一些样本中可能存在少量的离群点，导致分类的效果不尽理想。例如：下面左图中超平面对于两类样本点的分类情况相当良好，而如果增加一个样本点，就会使得超平面移动，而样本和超平面的间隔大幅减小。

为了解决上述问题，使SVM用于具有少量离群点的非线性可分数据集，我们将重新定义我们的目标函数和约束条件（ $\l_{1}$ 规范）：

$min_{\gamma,w,b}\quad \frac{1}{2}\left\|w\right\|^{2}+C\sum_{i=1}^{m}{\xi_{i}}$

$s.t.\quad y^{(i)}(w^{T}x^{(i)}+b)\ge1-\xi_{i},i=1,...,m$

$\xi_{i}\ge 0,\quad i=1,...,m$

修改后的目标函数以及约束条件将允许函数间隔小于1，如果一个样本的函数间隔为 $1-\xi_{i}$ ，那么我们将在目标函数中增加惩罚值 $C\xi_{i}$ 。其中，参数C为了控制超平面到样本点的间隔尽可能大，并且保证数据点偏差量尽量小。

此时的拉格朗日算子变为：

$\L(w,b,\xi,\alpha,r)=\frac{1}{2}\left\|w\right\|^{2}-\overset{m}{\underset{i=1}{\sum}}\xi_{i}-\overset{m}{\underset{i=1}{\sum}} a_{i}[y^{(i)}(x^{T}w+b)-1+\xi_{i}]-\overset{m}{\underset{i=1}{\sum}}r_{i}\xi_{i}$

此时的拉格朗日乘数为 $\alpha_{i}$ 和 $r_{i}$ （ $\alpha_{i},r_{i}\ge0$ ）。

$\frac{\partial \L(w,b,\alpha)}{\partial w}=0\Rightarrow w=\sum_{i=1}^{m}\alpha_{i}y^{(i)}x^{(i)}$

$\frac{\partial L(w,b,\alpha)}{\partial b}= 0 \Rightarrow a_{i}y^{(i)}=0$

$\frac{\partial L(w,b,\alpha)}{\partial \xi_{i}}= 0 \Rightarrow C-a_{i}-r_{i}=0$

将 $w=\sum_{i=1}^{m}\alpha_{i}y^{(i)}x^{(i)}$ 以及 $a_{i}y^{(i)}=0$ 带入 $\L(w,b,\xi,\alpha,r)$ 得到下面的对偶问题：

$\underset{\alpha}{max}\quad W(\alpha)=\sum_{i=1}^{m}{\alpha_{i}}-\frac{1}{2}\sum_{i,j=1}^{m}{y^{(i)}y^{(j)}\alpha_{i}\alpha_{j} \left< x^{(i)},x^{(j)} \right> }$

$s.t. \quad 0\le\alpha_{i}\le C,\quad i=1,...,m$

$a_{i}y^{(i)}=0$

十、SMO（sequentialminimal optimization）算法

SMO算法是由微软公司的John C. Platt发明的一种高效计算SVM的算法。 SMO算法将大型的二次规划问题（quadratic programming,QP），分解成小的QP问题。

（1）坐标上升（coordinate ascent）

假设一个需要求解一个无约束的优化问题，形式如下： $\underset{\alpha} {max}W(\alpha_{1},\alpha_{2},...,\alpha_{m})$ 。

首先固定除了 $\alpha_{i}$ 外的其他变量，然后求出以 $\alpha_{i}$ 为变量的函数最大值。

Loop untilconvergence{

For i=1,…,m{

$a_{i}:=arg\; max_{\hat{a_{i}}} W(a_{1},...,a_{i-1},\hat{a_{i}},a_{i+1},...,a_{m})$

}

（2）SMO

在下述约束条件下求解优化问题：

$\underset{\alpha}{max}\quad W(\alpha)=\sum_{i=1}^{m}{\alpha_{i}}-\frac{1}{2}\sum_{i,j=1}^{m}{y^{(i)}y^{(j)}\alpha_{i}\alpha_{j} \left< x^{(i)},x^{(j)} \right> }$

$s.t. \quad 0\le\alpha_{i}\le C,\quad i=1,...,m$

$a_{i}y^{(i)}=0$

我们可以尝试使坐标上升的方法求解：现在我们固定 $\alpha_{2},...,\alpha_{m}$ ，将 $\alpha_1$ 看作变量，然而，事与愿违，仅仅使用一个，无法利用坐标上升进行。证明如下：

$\underset {i=1}{\overset{m}{\sum}}a_{i}y^{(i)}=0 \Rightarrow a_{1}y^{(1)}=-\underset{i=2}{\overset{m}{\sum}}a_{i}y^{(i)}$

将上式两边同乘以 $y^{(1)}$ 得：

$a_{1}=-y^{(1)}\underset{i=2}{\overset{m}{\sum}}a_{i}y^{(i)}$

由上式可以看出的值完全由 $\alpha_{2},...,\alpha_{m}$ 决定，如果 $\alpha_{2},...,\alpha_{m}$ 固定了，那么 $\alpha_1$ 的值也被固定了，为一个常数，而不能为变量了。

因此，如果我们尝试利用坐标上升方法求解，同时更新两个变量，而将剩下的固定，这样可以满足约束条件。

Repeat until convergence{

1. 选择某些一对 $a_{i}$ 和 $a_{j}$

2. 保持其他 $a_{k}$ 不变（ $k\neq i,j$ ），以和做为变量对W(a)进行优化。

}

不失一般性：假设所有 $a_{i}$ 均满足约束条件，固定 $\alpha_{3},...,\alpha_{m}$ ，那么我们需要优化以 $\alpha_1$ 和 $\alpha_2$ 为变量的 $W(\alpha_{1},\alpha_{2},...,\alpha_{m})$ 。

由约束条件可得：

$\alpha_{1}y^{(1)}+\alpha_{2}y^{(2)}=-\underset{i=3}{\overset{m}{\sum}}\alpha_{i}y^{(i)}$

由于 $\alpha_{3},...,\alpha_{m}$ 为定值，我们令 $-\underset{i=3}{\overset{m}{\sum}}\alpha_{i}y^{(i)}=\xi$ ，有：

$\alpha_{1}y^{(1)}+\alpha_{2}y^{(2)}=\xi$

将 $\alpha_{1}y^{(1)}+\alpha_{2}y^{(2)}=\xi$ 在坐标上表示，如下图

根据约束条件 $0\le\alpha_{i}\le C$ 的限制， $\alpha_1$ 和 $\alpha_2$ 必须在方型区域 $[0,C]\times[0,C]$ 内；又 $\alpha_{1}y^{(1)}+\alpha_{2}y^{(2)}=\xi$ ，因此， $\alpha_1$ 和 $\alpha_2$ 必有上下界，令 $L\le\alpha_{2} \le H$ 。

可以将 $\alpha_1$ 用 $\alpha_2$ 表示： $\alpha_{1}=(\xi-\alpha_{2}y^{(2)})y^{(1)}$ 。

目标函数可以表示成：

$W(\alpha_{1},\alpha_{2},...,\alpha_{m})=W((\xi-\alpha_{2}y^{(2)})y^{(1)},\alpha_{2},...,\alpha_{m})$

目标函数就是关于 $\alpha_2$ 的二次函数：

$W(\alpha_{2})=a\alpha_{2}^{2}+b\alpha_{2}+c$

我们用 $\alpha_{2}^{new,unclipped}$ 表示 $\alpha_2$ 不受上下界约束的解，而 $\alpha_{2}^{new}$ 用表示约束解，可得：

$\alpha_{2}^{new}=\begin{cases}H\quad\quad\quad\quad\quad &if\;\; \alpha_{2}^{new,unclipped}>H \\ \alpha_{2}^{new,unclipped}\;\; &if\;\;L\le\alpha_{2}^{new,unclipped}\le H\\ L & if\alpha_{2}^{new,unclipped}<L\end{cases}$

求出 $\alpha_{2}^{new}$ 后，根据 $\alpha_{1}y^{(1)}+\alpha_{2}y^{(2)}=\xi$ ，可求出 $\alpha_1$ 。

具体的SMO算法的推导过程可参见JohnC. Platt的论文：SequentialMinimal Optimization: A Fast Algorithm for Training Support Vector Machines。

十一、总结

最后，用一段不带公式的语言总结支持向量机：支持向量机的目标就是求出一个超平面将正负两类样本点分开，并且使最小几何间隔尽可能大。由于上述问题是个非凸优化问题，因此可将其转化为等价的凸优化问题。再利用KKT条件，将原始优化问题，转化为其对偶问题，最终会得到一个以拉格朗日乘数为变量的优化问题。此问题的目标函数中含有样本点与预测点的内积形式，由于可能需要将样本点映射到高维空间，以便使样本点线性可分，可以通过核函数求解内积以降低高维空间求内积的运算复杂度。最后，可以使用SMO算法快速求解目标函数。

0 0