详解SVM模型

来源：互联网发布：网络黑客头像编辑：程序博客网时间：2024/06/06 00:55

SVM 详解

首先SVM的来源于最早的线性分类器，所谓线性分类器，就是找出一个线性超平面将空间样本点分为两部分。

如下图，

我们发现一个线性分类器将一个train data 上的样本空间分为两部分，有几户无数种这样的平面存在。我们需要求一个confidence最大的超平面，这样这个超平面的才能准确分类总体（或者说实际空间）

感知机算法
感知器是输入样本的线性二分类器，

f (x) = s i g n (w . x + b)

他的损失函数为

即所有错误分类点到超平面的距离之和

一般的，这样的感知机有无数个，这时候，感知器的置信度高低就会决定其对总体的估计能力了，所以，需要一种更优秀的线性分类器。
这时候支持向量机（另一种机，诞生啦！）

先看支持向量机的定义，
找到一个超平面将样本空间正确分类（机的概念来了），并且所有点到该平面的距离（集合距离）最大（这就是在说支持向量的意思）
表述成公式就是，
正确分类(无间隔考虑)

y i (w . x i + b) > 0

间隔最大：

m a r g i n = max w, b y i (w i . x i + b) 1 | | w | |

然后我们根据这两个公式我们相当于有

max w, b γ | | w | |

s . t . y i (w i . x + b) > γ

然后到这一步我们还是\gamma这个问题，这里gamma表述为函数距离，我们发现函数距离两边乘以相同的值，其实并不影响超平面，所以优化问题等同于只需要优化\dfrac{1}{||w||},这里将\gamma变化成了1，不影响优化，
所以有：

max w, b 1 | | w | |

s . t . y i (w . x i + b) > 1

到此其实就是一个svm的模型基本了，但是一般形式这样很少，原因两个：
1. 这个函数对于进一步求解不方便，因为优化数字在分母
2. 其实我觉得最早形式可能大家更愿意把他写成一个正则化参数+经验风险函数两部分在优化参数的时候

为了进一步进行计算，我们变化为：

min w, b | | w | | 2 2

s . t . y i (w i . x + b) > 1

对于一个带约束条件的优化问题一般使用拉格朗日对偶法进行解决，则有：

max α min w, b L (w, b, α) = 1 2 | | w | | 2 - \sum i = 0 N α i y i (w . x i + b) + \sum i N α i

其中要求KTT条件为
1. 每一个参数都可以导，
2. 拉格朗日乘子大于等于0

首先对min的w,b做处理，其实也就是对w,b求偏导。则会有，

- \sum i = 0 N α i . y i = 0

代入有
变为求max 拉格朗日橙子的问题，变为min，有

对于线性不可分的问题，指的是无论如何就是有一些点不满足到该超平面的间隔大于等于1(或者说都不大于等于最大间隔)，则引入一个松弛变量 $\xi$ ,意思就是加上一个这个松弛变量让他变成>=1.(其实就是加上某一个值后，让他输出正确）则为：

s . t . y i (w i . x + b) > = 1 - ξ i

那么对于支持向量的变化为，每个松弛变量要付出一个代价 $\xi_i$ ,则现在需要优化的问题变为：

1 2 | | w | | 2 + C \sum i = 1 N ξ i

其中加个约束

ξi>0

阅读全文

0 0