支持向量机

来源：互联网发布：tensorflow spyder 编辑：程序博客网时间：2024/06/02 05:39

支持向量机

间隔与支持向量

给定训练样本集 D={(x1,y1),(x2,y2),…,(xm,ym)} ，yi∈{−1,+1}，分类学习最基本的想法是基于训练集 D 在样本空间中找到一个划分超平面，将不用类别的样本分开，但能将样本分开的划分超平面可能有很多。

在样本空间中，划分超平面可通过如下线性方程来描述：

ω T x + b = 0

其中 ω=(ω1;ω2;…;ωd) 为法向量，决定了超平面的方向；b 为为位移项，决定了超平面与原点之间的距离. 则样本空间任意点 x 到超平面 (ω,b) 的距离可以写为：

r = | ω T x + b | | | ω | |

此超平面距离公式在感知机出现过，点到超平面的距离公式为此

假设超平面 (ω,b) 能将训练样本正确分类，即对于 (xi,yi)∈D ，若 yi=+1，则有 ωTxi+b>0；若 yi=−1，则有 ωTxi+b<0 . 令

{ω T x i + b \geq + 1, ω T x i + b \leq - 1, y i = + 1 y i = - 1

距离超平面最近的这几个样本点使上式的等号成立，它们被称为支持向量，两个异类支持向量到超平面的距离之和为：

γ = 2 | | ω | |

它被称为间隔。

欲找到具有“最大间隔 ”的划分超平面，也就是找到能满足上式约束的参数 ω 和 b，使得 γ 最大，即

max ω, b 2 | | ω | |

s . t . y i (ω T x i + b) \geq 1, i = 1, 2, \dots, m

显然，为了最大化间隔，仅需最大化 ||ω||−1，这等价于最小化 ||ω||2. 于是，可以重新写为

min ω, b 1 2 | | ω | | 2

s . t . y i (ω T x i + b) \geq 1, i = 1, 2, \dots, m

对偶问题

使用拉格朗日乘子法可得到其“ 对偶问题 ”. 具体来说，对上式每条约束添加拉格朗日乘子 αi≥0，则该问题的拉格朗日函数可写为：

L (ω, b, α) = 1 2 | | ω | | 2 + \sum i = 1 m α i (1 - y i (ω T x i + b))

其中 α=(α1;α2;…,αm). 令 L(ω,b,α) 对 ω 和 b 的偏导为零可得

ω = \sum i = 1 m α i y i x i

0 = \sum i = 1 m α i y i

将其代入，即可将 L(ω,b,α) 中的 ω 和 b 消去，再考虑约束，就得到原式的对偶问题

max α \sum i = 1 m α i - 1 2 \sum i = 1 m \sum j = 1 m α i α j y i y j x T i x j

s . t . \sum i = 1 m α i y i = 0,

α i \geq 0, i = 1, 2, \dots, m .

解出 α 后，求出 ω 与 b 即可得到模型

f (x) = ω T x + b = \sum i = 1 m α i y i x T i x + b .

从对偶问题解出的 αi 是拉格朗日乘子，它恰对应着训练样本 (xi,yi). 因此上述过程需要满足 KKT 条件，即要去

⎧ ⎩ ⎨ α i \geq 0; y i f (x i) - 1 \geq 0; α i (y i f (x i) - 1) = 0

拉格朗日对偶性

原始问题

假设 f(x), ci(x), hj(x) 是定义在 Rn 上的连续可微函数. 考虑约束最优化问题

$min x \in R n f (x)$

$s . t . c i (x) \leq 0, i = 1, 2, \dots, k$

$h j (x) = 0, j = 1, 2, \dots, l$

称此约束最优化问题为原始最优化问题或原始问题

首先，引进广义拉格朗日函数

$L (x, α, β) = f (x) + \sum i = 1 k α i c i (x) + \sum j = 1 l β j h j (x)$

这里，x=(x(1),x(2),…,x(n))T∈Rn，αi,βi 是拉格朗日乘子，αi≥0. 考虑 x 的函数:

$θ p (x) = max α, β : α i \geq 0 L (x, α, β)$

这里下标 P 表示原始问题。如果 x 违反原始问题的约束条件，即存在某个 i 是的 ci(x)>0 或存在某个 j 使得 hj(x)≠0，那么 θP(x)=+∞，相反的如果 x 满足条件，则 θP(x)=f(x). 因此

$θ P (x) = {f (x), + \infty, x 满足原始问题约束其他$

所以如果考虑极小化问题，

$min x θ P (x) = min x max α, β; α i \geq 0 L (x, α, β)$

它是与原始问题等价的. 为了方便，定义原始问题的最优值

$p * = min x θ P (x)$

称为原始问题的值。

对偶问题

定义：

$θ D (α, β) = min x L (x, α, β)$

再考虑极大化 θD=minxL(x,α,β)，即

$max α, β; α i \geq 0 θ D (α, β) = max α, β; α i \geq 0 min x L (x, α, β)$

$s . t . α i \geq 0, i = 1, 2, \dots, k$

称为原始问题的对偶问题，定义对偶问题的最优值

$d * = max α, β; α i \geq 0 θ D (α, β)$

称为对偶问题的值.

原始问题与对偶问题的关系

定理 C.1 若原始问题和对偶问题都有最优值，则

$d * = max α, β; α i \geq 0 min x L (x, α, β) \leq min x max α, β; α i \geq 0 L (x, α, β) = p *$

定理 C.2 假设函数 f(x) 和 ci(x) 是凸函数，hj(x) 是仿射函数；并且假设不等式约束 ci(x) 是严格可行的，即存在 x ，对所有 i 有 ci(x)<0 ，则存在 x∗,α∗,β∗，使 x∗ 是原始问题的解，α∗,β∗ 是对偶问题的解，并且

$p * = d * = L (x *, α *, β *)$

定理 C.3 假设函数 f(x) 和 ci(x) 是凸函数，hj(x) 是仿射函数，并且不等式约束 ci(x) 是严格可行的，则 x∗ 和 α∗,β∗ 分别是原始问题和对偶问题的解的充分必要条件是 x∗,α∗,β∗ 满足下面的 KKT条件：

$\nabla x L (x *, α *, β *) = 0$

$\nabla α L (x *, α *, β *) = 0$

$\nabla β L (x *, α *, β *) = 0$

$α * i c i (x *) = 0, i = 1, 2, \dots, k (对偶互补条件)$

$c x (x *) \leq 0, i = 1, 2, \dots, k$

$α * i \geq 0, i = 1, 2, \dots, k$

$h j (x *) = 0 j = 1, 2, \dots, l$

阅读全文

0 0