浅谈SVM

来源：互联网发布：淘宝网建达巧克力编辑：程序博客网时间：2024/06/08 06:18

2016-11-10 15:51 173人阅读评论(0)收藏举报

分类：

机器学习（2）

一、了解SVM

SVM是一机器学习中的一种分类方法，是一种二分类方法。它的目的便是在求得一组权值w1,w2,.....wn,b，使得两个分类的间隔达到最大,也就是能很好地将两个类别分开。

1、从逻辑回归引入SVM

此处使用Logistic Regression做为一个因子，来引入SVM

逻辑回归也是一个分类模型，它采用的映射函数为Sigmod函数，也就是把属于负无穷到正无穷的自变量映射到（0,1）之间。

函数图像如图所示。sigmod函数为 $h(\theta )=\frac{1}{1+e^{-\theta ^{T}x}}$ ，函数的输出是概率估计，输出代表1的概率。输出值>0.5为类别1，<0.5为类别0,。因此可以用概率模型来表示输出属于各个类别的值： $P(y=1|x:\theta )=h_{\theta }(x)=\frac{1}{1+e^{-\theta x}}$ ， $P(y=0|x:\theta )=1-h_{\theta }(x)$ 。

逻辑回归的目的是要求得到一组 $\theta$ ，使得属于类别y=1的特征满足 $\theta ^{T}x$ >>0，即 $h_{\theta }(x)-->1$ ，使得属于类别y=-1的特征满足 $\theta ^{T}x$ <<0，即 $h_{\theta }(x)-->0$ 。

2、逻辑回归变形为SVM

$\theta ^{T}x=\theta _{0}+\theta _{1}x_{1}+\theta _{2}x_{2}+.....+\theta _{n}x_{n}$ -->

$w^{T}x+b=b+w_{1}x_{1}+w_{2}x_{2}+.....+w_{n}x_{n}=z$ 。同时y也由原来的类别1，0变为了1，-1. $^{\frac{w^{T}x+b}{\sqrt{w^{2}}}}$ 针对输入x我们会得到 $f(x)=w^{T}x+b$ ,以下图为例

中间实线为我们要找的超平面，上面虚线代表 $f(x)=-1$ ，也就是类别为-1，下面代表类别为1.

注：类别为1 ，-1的由来：

1、二分类的标签是任意取的，只要能区分两个不同的类别即可。；

2、SVM为二分类模型，超平面分开的两个类的函数值相应于超平面是相反的；

3、既然是两个数，而且是相反数，那就去1和-1便于计算。

我们的目的是求得一组w和b，使得两个分类的间隔最大。也就是上图中虚线上的点到 $w^{T}x+b$ $w^{T}x+b=0$ =0的距离最小，实际距离表示为 $^{\frac{w^{T}x+b}{\sqrt{w^{2}}}}$ ，实际上式为 $\frac{1}{\left \| w \right \|}$ ,因为对于虚线的点满足 $\left \| x^{T}x+b \right \|=1$ ，因为虚线上的点事支持向量的，所以两边虚线之间的间隔也就是 $\frac{2}{\left \| w \right \|}$ 。求得max $\frac{2}{\left \| w \right \|}$ ，即可找到一组最优的w，下面对这个式子做一下变换，max $\frac{2}{\left \| w \right \|}$ 等价于min $\frac{1}{2}\left \| w^{2} \right \|$ s.t $y_{i}(w^{T}x+b)\geq 1$

注： $\left \| w^{T}x+b \right \|$ 能够表示x到超平面的距离远近，通过观察 $\left \| w^{T}x+b \right \|$ 与 $y_{i}$ i的符合是否一致就可以判断分类是否正确。

二、参数求解

在求解w的过程中,一直有一个约束条件即 $y_{i}(w^{T}x+b)\geq 1$ ，可以引入拉格朗日函数约束。

$L(w,b,\alpha )=\frac{1}{2}\left \| w^{2} \right \|+\sum_{1}^{m}\alpha _{i}[1-y_{i}(w^{T}*x_{i}+b)]$

求函数的极值，对三个未知数分别求偏导可得出： $w=\sum_{i=1}^{m}\alpha _{i}y_{i}x_{i}$ $0=\sum_{i=1}^{m}\alpha _{i}y_{i}$

这样就找到了 $w,\alpha ,b$ 三者之间的关系，求出 $\alpha$ 就相当于求出了w，b。

$L(w,\alpha ,b)=max\sum_{i=1}^{m}\alpha _{i}-\frac{1}{2}\sum_{i=1}^{m}\sum_{j=1}^{m}\alpha _{i}\alpha _{j}y_{i}y_{j}x_{i}^{T}x_{j}$ 。只有一个参数 $\alpha _{i}$ ，采用SMO方法，即每次只求两个 $\alpha _{i}$ ，固定除了这两个 $\alpha$ 以外所有的 $\alpha$ （视为常数），不断的任意抽取 $\alpha_{i},\alpha _{j}$ ，然后求解上面关于 $\alpha$ 的函数值直到收敛。