SVM听课笔记

来源：互联网发布：qt usb通信 linux api 编辑：程序博客网时间：2024/06/05 15:12

考虑如何用决策边界划分空间
找一条直线，这条直线会让分隔正负例的街道最宽，那么，如何制定一条决策规则来使用这个决策边界。

w * u > = c (c 是 常 数 ， 这 里 * 代 表 点 积)

点积的作用就是让向量u往w上面投影，投影越大未知向量就会在街的越右边，投影就会越过街道的中线，这时，我们就说例子是正例，或者，不失一般性的，若满足：

w * u + b > = 0,

则是正例。这就是我们的决策规则。
问题在于，我们不知道要用什么常数，也不知道用哪个w，只知道w必须垂直于街道的中线。但是因为w的长度是不确定的，所以垂直于街道中线的w可以有很多。
加入我们想把正例和负例分开的更明显一点。我们规定：

w * x + + b > = 1 (x + : 正 例, y = + 1) w * x + + b < = - 1 (x - : 负 例, y = - 1)

即，当函数的值大于等于1的时候才算正例，小于等于-1的时候才算负例。加入我们说正例有正的程度，负例有负的程度，为了统一评价他们的这种程度（也就是让“程度”有可比性）我们给出一个新的函数σ（xi）=yig(xi)
这样就出现了：

y i (w * x i + b) > = 1 ， 正 例 y i (w * x i + b) > = 1 ， 负 例

即：

y i (w * x i + b) - 1 > = 0

这就是我们的约束条件，这组公式保证了所有的样本点都不会出现在-1~1之间，也就避免了出现不可分的情况。当yi(w∗xi+b)−1=0时，对边缘处的所有样本正好成立。
接下来，我们还需要表达出两个边缘之间的距离，即街道的宽度。
我们通过求两个向量的差来求。
图
如果有一个单位法向量，垂直于街道的中线，做这个单位法向量于这个差向量的点积，聚会得到街道的宽度。

w i d t h = （ x + - x - ） * w | | w | | （ w | | w | | 代 表 单 位 法 向 量 ）

求得后是一个标量。
由前面的公式得知：
当处于正例边缘时：yi=+1,=>w∗x+=1−b
当处于负例边缘时：yi=−1,=>w∗x+=1+b
把这两个带入width公式得到：

w i d t h = 2 | | w | |

我们要求最宽的街道，即要width最大化。
要width最大化。，也就是最小化||w||,也相当于最小化12||w||2
回顾一下我们都做了什么。
①确定了决策规则，判断处于哪一边。
②给出约束条件，让决策规则的值，对于边缘处的正例为+1，对于边缘处的负例为-1.
③最大化街道宽度，即最小化12||w||2

要求带约束条件的函数的极值，我们就需要用到拉格朗日乘数。这样我们得到

L = 1 2 | | w | | 2 - \sum α i [y i (w * x i + b) - 1] (后 一 项 是 所 有 约 束 条 件 的 和)

我们让L求导等于0求得极值。

\partial L \partial w = w - \sum α i y i x i = 0 即 : w = \sum α i y i x i

w是关于xi向量的线性和。

\partial L \partial b = \sum α i y i = 0 即 ： \sum α i y i = 0

决策向量w是样本的现象和，带入L

L = 1 2 (\sum α i y i x i) (\sum α j y j x j) - (\sum α i y i x i) (\sum α j y j x j) - \sum α i y i b + \sum α i = \sum α i - 1 2 \sum i \sum j α i y i x i α j y j x j

这个式子告诉我们，极值只依赖于样本对之间的点积。

阅读全文

0 0