吴恩达机器学习之最优间隔分类器

来源：互联网发布：程序员过关编辑：程序博客网时间：2024/06/10 08:53

最优间隔分类器

定义目标函数:
hw,b=g(wTx+b)，g(z)={10z≥0z<0，y∈{−1,1}
定义函数间隔：
Υ−i=yi(wTxi+b)
定义几何间隔：
Υi=yi(wT∣w∣xi+b∣w∣)
那么有：Υi=Υ−i∣w∣，函数间隔会随着w和b的改变而变化，而几何间隔则是不变得，最优间隔分类器的目的就是使几何间隔最大化

目标1. maxΥ,w,bΥ 　s.t.　yi(wT∣w∣xi+b∣w∣)≥Υ
目标2. maxΥ−,w,bΥ−∣w∣ 　s.t.　yi(wTxi+b)≥Υ−
目标3. minw∣w∣2，s.t.　yi(wTxi+b)≥1(令Υ−1=1)

由于这两种优化问题都是非凸优化，因此不会收敛到全局最小值，只会收敛到局部最小值，要用对偶问题来解答。

拉格朗日乘数法

目标函数定义：
minwf(w)　s.t.　hi(w)=0
定义拉格朗日算子
L(w,β)=f(w)+∑iβihi(w)
令偏导数等于0：
∂L(w,β)∂w=0，∂L(w,β)∂β=0
如果w∗是解，那么存在β∗，使得：
∂L(w∗,β∗)∂w=0，∂L(w∗,β∗)∂βi=0

广义拉格朗日乘数法

目标函数定义：
minwf(w)　s.t.　gi(w)≤0,hi(w)=0
定义广义拉格朗日算子
L(w,α,β)=f(w)+∑iαigi(w)+∑iβihi(w)
定义：θp(w)=maxα,βL(w,α,β)
θp(w)={f(w)∞gi(w),hi(w)满足条件otherwise
那么原始问题定义为：
p∗=minwθp(w)=minwmaxα,βL(w,α,β)
拉格朗日乘数法的原理可以参考下面这篇文章http://blog.csdn.net/z_x_1996/article/details/71705650

对偶问题

定义：
θD(α,β)=minwL(w.α,β)
它的对偶问题是：
d∗=maxα≥0,βθD(α,β)=maxα≥0,βminwL(w,α,β)
一般来说，对偶问题的解小于等于原始问题的解，即d∗≤p∗
如果想将原始问题转化为对偶问题来解，也就是要证明在什么情况下d∗=p∗

假设f为凸函数
假设hi(w)是仿射函数（仿射函数是指自变量最高次数为1的多项式函数）
存在w，对于所有的i，gi(w)<0

那么存在w∗,α∗,β∗，使得：∂L(w∗,α∗,β∗)∂w=0，∂L(w∗,α∗,β∗)∂β=0
其中w∗是原始问题的解，α∗,β∗是拉格朗日乘数，是对偶问题的解
KKT互补条件：
α∗igi(w)=0，gi(w∗)≤0，α∗i≥0
如果α∗i>0⇒gi(w∗)=0，通常有α∗i≠0⇒gi(w∗)=0
对偶问题可以参考下面这篇文章
http://blog.csdn.net/x3886321/article/details/19128441

SVM的最优间隔分类器

拉格朗日常数αi,βi变成αi，参数w变成w,b
目标函数定义为：
min12(∣w∣)2，s.t.　yi(wTxi+b)≥1
gi(w,b)=−yi(wTxi+b)+1≤0，αi>0⇒gi(w,b)=0⇒yi(wTxi+b)=1
我们将函数间隔为1的样本称为支持向量，这也就是支持向量机的来源。
拉格朗日算子：
L(w,b,α)=12∣w∣2−∑i(yi(wTxi+b)−1)
定义：
θD(α)=minw,bL(w,b,α)
∂L(w,b,α)∂α=w−∑iαixiyi=0⇒w=∑iαixiyi
∂L(w,b,α)∂b=∑iαiyi=0
L(w,b,α)=12∣w∣∣w∣T−∑iαi(yi(wTxi+b)−1)
=12∑i∑jαiαjyiyj<xi,xj>−∑i∑jαiαjyiyj<xi,xj>+∑iαi
＝∑iαi−12∑i∑jαiαjyiyj<xi,xj>＝W(α)
对偶问题：
maxαW(α)，s.t.　αi≥0，∑iyiαi=0
所以目标函数为：
hw,b(x)=g(wTx+b)=g(∑iαiyi<xi,x>+b)
这样，我们就把转化变量变为了α，然后通过上面ω与α的关系便可以求出ω，ω求出来后，b也可以很容易的得到为：
b=−mini,yi=1wTxi+maxi,yi=−1wTxi2
具体的原理可以参考这篇文章http://blog.csdn.net/z_x_1996/article/details/72763904

阅读全文

0 0