支持向量机（1）

来源：互联网发布：按网络功能层次分编辑：程序博客网时间：2024/05/21 21:43

支持向量机在1992年被正式发表，最开始时研究线性可分支持向量机，与它相似的算法是感知机，感知机学习的策略是误分类点最少；而线性支持向量机的学习策略是间隔最大化。之后相继引入了惩罚因子和核函数的概念，能够处理线性支持向量机和非线性支持向量机。
所以整体的逻辑是分别理清三类支持向量机的关系，能够明白最终都是转化为求解凸二次规划问题；那么我们通过序列最小最优化算法SMO求解这个问题即可。那么具体逐一介绍以下内容：

— — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — —

支持向量机三类模型
- 线性可分支持向量机 : 当训练数据线性可分时，可通过硬间隔最大化学习一个线性分类器
- 线性支持向量机 :　当训练数据近似线性可分时，可通过软间隔最大化学习一个线性的分类器
- 非线性支持向量机：　当训练数据线性不可分时，可通过软间隔最大化与核技巧来学习一个非线性分类器
序列最小最优化算法SMO：求解凸二次规划的最优化算法
核技巧[扩展]
惩罚因子[扩展]
支持向量机的代码实现

— — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — —

1、线性可分支持向量机

对于给定特征空间上的训练数据集T={(x1,y1),(x2,y2),⋯,(xn,yn)}，其中xi∈Rn,yi∈{+1,−1},i=1,2,⋯,N, 学习的目的是在特征空间上找到一个分离超平面，能够将实例分到不同的类。分离超平面对应于方程 w⋅x+b=0 ；学习的策略是间隔最大化，即得到将两类数据正确划分且间隔最大的直线。
这里写图片描述

1.1 函数间隔

从图中我们可以确定A是×类别的，B还算能够确定，然而C是不太确定的。可见一个点距离分离超平面的远近可以表示分类预测的确信程度，一个点距离分类超平面越远，那么它被预测正确地概率越大；在超平面w⋅x+b=0确定的情况下，|w⋅x+b|能够表示点x距离超平面的远近；而w⋅x+b的符号与类标记y的符号是否一致能够表示分类是否正确，所以可以用y(w⋅x+b)表示分类的正确性与确信度。所以我们定义函数间隔如下：

关于训练数据集T中样本点(xi,yi)的函数间隔是 r^i=yi(w⋅xi+b)
关于训练数据集T的函数间隔是 r^=min r^i

函数间隔虽然可以表示分类的正确性和确信度，但对于一个确定的超平面w⋅x+b=0，同时同比例增大w,b，超平面没有改变，但函数间隔却变大了。所以我们若希望间隔不发生改变，通常是对w加以约束。

几何间隔

这里写图片描述
假设我们已知分离超平面w⋅x+b=0，A(xi,yi)到该面的距离ri，B为A在分离超平面的投影，且BA的方向为w（法向量），单位向量为w||w||。则我们能得到B点的xb=xi−riw||w||，代入超平面中得到：w⋅xb+b=w⋅(xi−riw||w||)+b=0，解得ri=(w⋅xi+b)||w||，这是A点在正例的情况；反之，有ri=−((w⋅xi+b)||w||)。即有ri=yi(w⋅xi+b)||w||。
我们发现函数间隔约束之后恰好是几何间隔，之所以一样，是因为函数间隔是人为定义的，里面已经潜藏了几何间隔的元素。此时，若同时扩大w和b，w扩大几倍，||w||就扩大几倍，几何间隔无影响。于是有：