机器学习笔记 - Hard-Margin Support Vector Machine

来源:互联网 发布:松下焊接机器人编程 编辑:程序博客网 时间:2024/06/05 18:10

目录

  • Large-Margin Separating Hyperplane
  • Distance to Separating Hyperplane
  • Standard Large-Margin Hyperplane Problem
  • Solving General SVM
  • Summary

Large-Margin Separating Hyperplane

在下图所示三个分隔线中,虽然三条分隔线都在训练集上使得Ein为0,但是我们在直觉上会仍然倾向于认为第三条分隔线是最佳的。

Margin

较为直观的解释是,相较于第三条分隔线,第一条和第二条分隔线对于靠近训练集的数据点的判断可能不够精准,而第三条分隔线对于这些数据点而言,具有更好的鲁棒性。

具有更好的鲁棒性,就说明该分隔线具有更好的容错能力,我们希望找到这样一条线,这条线在训练集上到每个数据点距离越大越好,且正确分隔数据点,即Ein为0。

下图描述分隔线到训练集上数据点的间隔。

Fat

更具体地,可以将如何找到这样一条线描述为如下图所示的一个最优化问题:

这里写图片描述

即找到一个最大的超平面,既能正确的区分训练集上每一个数据点,且使距离超平面距离最近的数据点的距离最大,更进一步可以将上述问题写成以下形式:

Margin

Distance to Separating Hyperplane

我们用如下形式表示超平面:

Hyperplane

以下图三维空间为例,其中,w为右图所示平面的法向量,x为平面上一点

Distance

则点x到平面的距离可以表示为xw的投影,如下图所示:

Projection

所以,原最优化问题可以改写为以下形式:

这里写图片描述

Standard Large-Margin Hyperplane Problem

由于缩放超平面的wb的值并不影响超平面的形状,考虑一个特殊缩放cwT+cb=0,使得minn=1,...,Nyn(wTxn+b)=1

如下图:

这里写图片描述

通过这样的特殊缩放,使得原问题的目标函数与约束被简化为如下形式:

这里写图片描述

由于缩放后的等式约束minn=1,...,Nyn(wTxn+b)=1,最终可以将原问题改写为如下形式:

这里写图片描述

上述问题被称之为等式约束的二次规划问题,本问题已经可以使用拉格朗日乘子法求解,但是在此处为了结合讲义进度,拉格朗日乘子法将会在后期与KKT条件一并介绍,此处为了将问题改写为能够被一般求解程序求解的形式,还需要对等式约束进行如下改写:

这里写图片描述

即使原等式约束minn=1,...,Nyn(wTxn+b)=1被放宽为minn=1,...,Nyn(wTxn+b)1,最终目标函数的解也不会受到影响。

证明如下:

如果存在一个最优解(b,w),使得minn=1,...,Nyn(wTxn+b)=1.126,即使得minn=1,...,Nyn(wTxn+b)1,那么对于目标函数1w,该最优解可以进一步缩放为(w1.126,b1.126),这与(b,w)为最优解相矛盾,故最优解一定使得minn=1,...,Nyn(wTxn+b)=1

所以,即使对原等式约束条件进行放宽,也不会影响最终目标函数的解。

最终,我们将原问题改写为以下形式:

这里写图片描述

Solving General SVM

这里写图片描述

通过左图发现,待求的目标函数及其约束条件所构成的问题属于右图所代表的二次规划问题,且由于范数函数是凸函数,即12wTw为凸函数,对于凸函数而言,局部的最优解即是全局的最优解,在本问题中,我们只需要找到右图二次规划中目标函数及其不等式约束的各项参数,即可用现有的一些解二次规划的程序工具求解,而具体求解的过程会在后续的文章提及。

通过观察和简单计算,二次规划各项参数具有如下图所示的关系:

这里写图片描述

在右图标准形式中的u=[bw],其中w是向量,其维度为n,所以其对应的对称矩阵Q=[00Td0TdId]p=0d+1,这保证12uTQu+pTu=12wTw,而约束中aTn=yn[1xTn]cn=1M=N

最后QP(Q,p,A,c)返回的结果,即是最优解(b,w)

Summary

对于上述最优化问题的一般求解过程小结如下:

这里写图片描述

同样,可以通过zn=Φ(xn)xn做线性到非线性的映射,将问题映射到更高维度的空间来求解。

这里写图片描述

如上图,SVM与regularization(正则化)有着相似与不同之处,regularization是以wTwC为约束,以最小化Ein为目标,而SVM则以Ein=0为约束,希望最小化12wTwC,本质上SVM也是一种正则化的体现。

通常来说,较少的dichotomies意味着更小的VC维,而在SVM中,由于对margin的限制,使得dichotomies减少,这一定程度上使得VC维变小,从而可能使得Eout表现更好。

这里写图片描述

以上是对Hard-Margin Support Vector Machine(硬间隔支撑向量机)在台湾大学机器学习技法课程中的介绍与总结。

在下一篇文章中,将会讨论加入特征转换与核方法的SVM。

0 0
原创粉丝点击