支持向量机

来源:互联网 发布:tensorflow spyder 编辑:程序博客网 时间:2024/06/02 05:39

支持向量机

间隔与支持向量

给定训练样本集 D={(x1,y1),(x2,y2),,(xm,ym)}yi{1,+1},分类学习最基本的想法是基于训练集 D 在样本空间中找到一个划分超平面,将不用类别的样本分开,但能将样本分开的划分超平面可能有很多。

在样本空间中,划分超平面可通过如下线性方程来描述:

ωTx+b=0

其中 ω=(ω1;ω2;;ωd) 为法向量,决定了超平面的方向;b 为为位移项,决定了超平面与原点之间的距离. 则样本空间任意点 x 到超平面 (ω,b) 的距离可以写为:

r=|ωTx+b|||ω||

此超平面距离公式在感知机出现过,点到超平面的距离公式为此

假设超平面 (ω,b) 能将训练样本正确分类,即对于 (xi,yi)D ,若 yi=+1,则有 ωTxi+b>0;若 yi=1,则有 ωTxi+b<0 . 令

{ωTxi+b+1, ωTxi+b1,yi=+1yi=1

距离超平面最近的这几个样本点使上式的等号成立,它们被称为支持向量,两个异类支持向量到超平面的距离之和为:

γ=2||ω||

它被称为间隔。

欲找到具有“最大间隔 ”的划分超平面,也就是找到能满足上式约束的参数 ωb,使得 γ 最大,即

maxω,b2||ω||

s.t.yi(ωTxi+b)1,i=1,2,,m

显然,为了最大化间隔,仅需最大化 ||ω||1,这等价于最小化 ||ω||2. 于是,可以重新写为

minω,b12||ω||2

s.t.yi(ωTxi+b)1,i=1,2,,m

对偶问题

使用拉格朗日乘子法可得到其“ 对偶问题 ”. 具体来说,对上式每条约束添加拉格朗日乘子 αi0,则该问题的拉格朗日函数可写为:

L(ω,b,α)=12||ω||2+i=1mαi(1yi(ωTxi+b))

其中 α=(α1;α2;,αm). 令 L(ω,b,α)ωb 的偏导为零可得

ω=i=1mαiyixi

0=i=1mαiyi

将其代入,即可将 L(ω,b,α) 中的 ωb 消去,再考虑约束,就得到原式的对偶问题

maxαi=1mαi12i=1mj=1mαiαjyiyjxTixj

s.t.i=1mαiyi=0,

αi0,i=1,2,,m.

解出 α 后,求出 ωb 即可得到模型

f(x)=ωTx+b =i=1mαiyixTix+b.

从对偶问题解出的 αi 是拉格朗日乘子,它恰对应着训练样本 (xi,yi). 因此上述过程需要满足 KKT 条件,即要去

αi0; yif(xi)10; αi(yif(xi)1)=0

拉格朗日对偶性

  1. 原始问题

    假设 f(x), ci(x), hj(x) 是定义在 Rn 上的连续可微函数. 考虑约束最优化问题

    minxRnf(x)

    s.t.ci(x)0,i=1,2,,k

    hj(x)=0,j=1,2,,l

    称此约束最优化问题为原始最优化问题或原始问题

    首先,引进广义拉格朗日函数

    L(x,α,β)=f(x)+i=1kαici(x)+j=1lβjhj(x)

    这里,x=(x(1),x(2),,x(n))TRnαi,βi 是拉格朗日乘子,αi0. 考虑 x 的函数:

    θp(x)=maxα,β:αi0L(x,α,β)

    这里下标 P 表示原始问题。如果 x 违反原始问题的约束条件,即存在某个 i 是的 ci(x)>0 或 存在某个 j 使得 hj(x)0,那么 θP(x)=+,相反的如果 x 满足条件,则 θP(x)=f(x). 因此

    θP(x)={f(x),+,x

    所以如果考虑极小化问题,

    minxθP(x)=minxmaxα,β;αi0L(x,α,β)

    它是与原始问题等价的. 为了方便,定义原始问题的最优值

    p=minxθP(x)

    称为原始问题的值。

  2. 对偶问题

    定义:

    θD(α,β)=minxL(x,α,β)

    再考虑极大化 θD=minxL(x,α,β),即

    maxα,β;αi0θD(α,β)=maxα,β;αi0minxL(x,α,β)

    s.t.αi0,i=1,2,,k

    称为原始问题的对偶问题, 定义对偶问题的最优值

    d=maxα,β;αi0θD(α,β)

    称为对偶问题的值.

  3. 原始问题与对偶问题的关系

    定理 C.1 若原始问题和对偶问题都有最优值,则

    d=maxα,β;αi0minxL(x,α,β)minxmaxα,β;αi0L(x,α,β)=p

    定理 C.2 假设函数 f(x)ci(x) 是凸函数,hj(x) 是仿射函数;并且假设不等式约束 ci(x) 是严格可行的,即存在 x ,对所有 ici(x)<0 ,则存在 x,α,β,使 x 是原始问题的解,α,β 是对偶问题的解,并且

    p=d=L(x,α,β)

    定理 C.3 假设函数 f(x)ci(x) 是凸函数,hj(x) 是仿射函数,并且不等式约束 ci(x) 是严格可行的,则 xα,β 分别是原始问题和对偶问题的解的充分必要条件是 x,α,β 满足下面的 KKT条件:

    xL(x,α,β)=0

    αL(x,α,β)=0

    βL(x,α,β)=0

    αici(x)=0,i=1,2,,k()

    cx(x)0,i=1,2,,k

    αi0,i=1,2,,k

    hj(x)=0j=1,2,,l

原创粉丝点击