SVM之问题形式化

来源:互联网 发布:js obj defaultvalue 编辑:程序博客网 时间:2024/06/05 19:24

原文地址:http://www.cnblogs.com/dreamvibe/p/4355141.html

SVM内容繁多,打算用五篇文章来记述。SVM之问题形式化描述给出SVM的问题描述与基本模型;SVM之对偶问题将SVM求解转换为对偶问题的求解;SVM之核函数描述了SVM引人核函数进行特征向高维映射的过程;SVM之解决线性不可分描述了SVM对线性不可分数据的处理方法;另外,写在SVM之前——凸优化与对偶问题本身与SVM无关,但涉及了SVM优化问题求解的基础,是SVM之对偶问题SVM之解决线性不可分的阅读前提。需要注意的是:前三篇都是在数据线性可分的情况下进行的,第四篇才给出了解决线性不可分的方法;尽管如此,并不意味这第四篇完全脱离前三篇的整体内容,相反,SVM解决线性不可分方法的形式化描述与线性可分情况无多大差异,所以求解方法也是一样的。

一、线性分类器

对输入的m 个训练样本{xi,yi}i=1m,xin,yi{1,1} ,线性分类器希望找到一个超平面wTx+b=0 将两类样本分开,使得对于样本类别yi=1 的样本wTxi+b>0 ;对于样本类别yi=1的样本wTxi+b<0。这样,超平面wTx+b=0便是一个“完美”的分类器。这个“完美”的分类器当然是很任性的,因为她要求数据是要线性可分的,不过在没有明确提出线性不可分的问题之前,暂且随着她的性子,假设数据和她一样“完美”吧!

二、函数间隔与几何间隔

在继续分类器之前,首先引人函数间隔和几何间隔两个概念。

对于线性函数h(x)=wTx+b ,定义第i 个样本到它的函数间隔为:ˆγi=yi(wTxi+b)

函数间隔的意义不是很明确直观,但很容易发现它有一个性质:函数间隔随(w,b) 的尺度成比例变换,也就是说如果令(w,b)=k(w,b) ,那么ˆγi=yi(wTxi+b)=kˆγi

另外,定义m 个样本的集合的函数间隔为ˆγ=minxˆγi ,也就是所有样本中函数间隔最小的那个。

几何间隔的意义就明确很多了,就是样本到超平面wTx+b=0的几何距离。

 

点A坐标记为向量xA ,它到平面wTx+b=0的投影为点B,点B坐标记为向量xB 。那点A到平面wTx+b=0的距离为向量BA 的长度。另外平面wTx+b=0的单位化的法向量为ww ,所以向量BA 的可以表示为γAww,其中γA为向量BA 的长度,也是点A到平面wTx+b=0的几何距离。根据向量xA 、xB 以及 BA的关系,可以得到xB=xABA=xAλww ,又由于 xB在平面 wTx+b=0上,所以  wTxB+b=0,俩式联立可以得到点A到平面wTx+b=0 的几何距离为γA=1w(wTx+b)

考虑到样本在平面两侧距离计算结果的正负性,样本i 的几何间隔定义为:γi=1wyi(wTxi+b)

显然,几何间隔和函数间隔满足:γi=ˆγiw

同样,定义m 个样本的集合到超平面wTx+b=0的几何间隔为γ=miniγi

三、最大间隔分类器

如果数据是线性可分的,那么一般存在多组(w,b)是的超平面wTx+b=0可以将数据正确分类,那么就需要一个标准来从中选取一个最优的。

最大间隔分类器以几何间隔为标准,从中选取离所有样本的集合的几何间隔最大的一个分类超平面作为最优分类超平面,也就是说,这样的超平面使得所有样本的集合到它的几何间隔γ 最大化。而γ=miniγi

,换句话说,它在正确分类的前提下,要使得隔离它最近的样本尽可能的离它远,这样的分类平面将两类样本分的更开,保证了分类器更好的泛化性,因为如果分类超平面如果离某一类样本相对较近(就像第一幅图中三条黑线那样),那么分类器在这类样本附近就很可能对新的数据产生错分。可以直观看出,这样的分类超平面几何上大概是与两类样本的“边界”平行,穿过两类样本最中间的那条线,就像第二幅图中红线那样。

现在将思想形式化表示出来。首先,分类器必须对所有训练数据正确分类,也就是说所有样本到超平面几何间隔至少为γ,其次目标是要是这个其次最大化,这样就可以将其表示为以下优化问题:{maxw,b,γγs.t.1wyi(wTxi+b)γ

 根据几何间隔和函数间隔的关系γ=ˆγw,上面优化问题可进一步改写为:{maxw,b,ˆγˆγws.t.yi(wTxi+b)ˆγ

现在观察优化问题maxw,bˆγw,优化变量为(w,b) ,目标函数为ˆγw,前文已经提到,函数间隔ˆγ 随(w,b) 的尺度成比例变换,那么现在优化目标函数ˆγw时,对优化变量(w,b) 的任何尺度变换是没有意义的,并不会影响ˆγw的值。由于它们之间的这种关系,我们可以简化问题的求解,对ˆγ(w,b)之一固定,去优化另一个(这个我的理解也比较模糊)。实事上,固定ˆγ会使问题变得更加简单,现在固定ˆγ=1(其他常数也可以),最大化ˆγw 等价于最小化w ,也等价于最小化12w2 (这样转换是为了后面运算方便)上面的优化问题进一步化为:{minw,b12w2s.t.yi(wTxi+b)1

现在,SVM的基础——最大间隔分类器就形式化为以上优化问题,而且不难发现它还是个凸优化问题,求解很方便。但是,我们并不直接求解这个问题,而是转而求解它的对偶问题,这我个人理解主要是因为转换后的对偶问题具有很好的形式,很容易引人核函数。关于对偶问题下一篇SVM之对偶问题中再写。