理解LIBSVM: A Library for Support Vector Machines

来源：互联网发布：云盘 php源码编辑：程序博客网时间：2024/06/05 04:55

为了更好的利用由 Chih-Chung Chang and Chih-Jen Lin 提供的libsvm库，该博文主要理解其提供的《LIBSVM: A Library for Support Vector Machines》文档。在理解该文档之前，简单梳理支持向量机（Support Vector Machines： SVM）

1. SVM基础知识
1.1基础的SVM是用来处理二分类问题，分类器的目标是找到一个超平面

w T x + b = 0

其中x为训练数据集，{w，b}为训练参数。对于二分类问题，label：y={-1,1}.
由分界面定义分类函数

f(x)：

f (x) = w T x + b

f(x)<0,f(x)=0(分界面),f(x)>0。
数据样本到超平面的距离：
　　　　　　　　　　　　　　　这里写图片描述

　　　　　　　　　　　　(图片来源：http://eric-gcm.iteye.com/blog/1981771）

γ = w T x + b ∥ w ∥ = f ( x ) ∥ w ∥

目标优化函数（详细解释分析见http://eric-gcm.iteye.com/blog/1981771）：

m a x 1 ∥ w ∥, s . t ., y i (w T x i + b) ⩾ 1, i = 1, . . ., n

问题等价于在约束不变下

m i n 1 2 ∥ w ∥ 2

(

∥w∥2=wTw)在该问题下，求解算法的复杂度与样本维度有关，通过求原问题的对偶问题优化求解过程。针对SVM求解这样做的优点：优化求解；方便SVM引入核函数解决非线性分类问题。
对带约束条件的问题，通过引入拉格朗日乘子将约束问题转换为非约束问题，优化函数如下：

L (w, b, α) = 1 2 ∥ w ∥ 2 - \sum i = 1 n α i (y i (w T x i + b) - 1)

原问题等价为：

m i n w, b m a x α i \geq 0 L (w, b, α)

对偶形式：

m a x α i \geq 0 m i n w, b L (w, b, α)

通过对对偶优化函数求偏导：

\partial L \partial w = 0 \Rightarrow w = \sum i = 1 n α i y i x i

\partial L \partial b = 0 \Rightarrow \sum i = 1 n α i y i = 0

推出：

L (w, b, a) = \sum i = 1 n α i - 1 2 \sum i, j = 1 n α i α j y i y j x T i x j

接下来对偶问题成为函数对

α求极大，并且在前面的推到中，有与

α的等式与不等式，这些式子中含有原问题的目标变量：

L (w, b, a) = 1 2 \sum i = 1 n α i - 1 2 \sum i, j = 1 n α i α j y i y j x T i x j

s . t . \sum i = 1 n α i y i = 0

α i \geq 0, i = 1, 2, . . ., n

构造拉格朗日函数求极值，对

α求导（令求导=0），算出

α，从而得出{w,b}
由于

w=∑ni=1αiyixi，分类函数表示为：

f (x) = \sum i = 1 n α i y i ⟨ x i, x ⟩ + b

1.2对于线性不可分（噪声）
加入松弛变量

ξ，使得原约束成为

y(wTw+b)≥1−ξ(

ξ为松弛变量)。对加入松弛变量的SVM，

m i n w, b 1 2 ∥ w ∥ 2 + C \sum i = 1 n ξ i (C 为 常 量)

y i (w T x i + b) \geq 1 - ξ i

ξ i \geq 0

i = 1, 2, . . ., n

C∑ni=1ξi为“惩罚项”，松弛变量越大，对目标函数的惩罚力度越大。
将约束求解转换为非约束：

L (w, b, ξ, α, r) = 1 2 ∥ w ∥ 2 + C \sum i = 1 n ξ i - \sum i = 1 n α i (y i (w T x i + b) - 1 + ξ i) - \sum i = 1 n r i ξ i

求偏导：

\partial L \partial w = w - \sum i = 1 n α i y i x i = 0 \Rightarrow w = \sum i = 1 n α i y i x i

\partial L \partial b = - \sum i = 1 n α i y i = 0

\partial L \partial ξ i = C - α i - r i = 0

将值带入函数，且（

∥w∥2=wTw）,故对偶形式为：

m a x α \sum i = 1 n α i - 1 2 \sum i, j = 1 n α i α j y i y j x T i x j (x T i x j = ⟨ x i x j ⟩)

s . t . \sum i = 1 n α i y j = 0

0 \leq α i \leq C, i = 1, 2, . . ., n

1.3对于线性不可分（数据非线性性）
SVM处理非线性数据通过引入核函数

K(,)将数据映射（map)到高维，解决二分类中数据线性不可分问题。由于对偶求解中保证了

(xTixj=⟨xixj⟩)将线性可分通过

∅(⋅)核函数映射，记为

K(xi,xj).(为了避免映射的维度灾难，，数据的映射计算是先直接在原来的低维空间计算，然后进行映射)，从而，分类函数为：

f (x) = \sum i = 1 n α i y i K (x i, x j) + b

原问题的对偶问题：

m a x α \sum i = 1 n α i - 1 2 \sum i = i, j n α i α j y i y j K (x i, x j)

s . t . \sum i = 1 n α i y i = 0

α i \geq 0, i = 1, 2, . . ., n

2. Libsvm: a library for support vector machines
- SVC: support vector classification (two-class and multi-class)
- SVR: support vector regression
- One-class SVM.
2.1.1 C-Sopport Vector Classification 松弛+核函数
2分类，label:

yi∈{1,−1}
原优化问题：

m i n w, b, ξ 1 2 w T w + C \sum i = 1 l ξ i

s . t . y i (w T \emptyset (x i) + b) \geq 1 - ξ i,

0 \leq α i \leq C, i = 1, . . ., l

将带约束的原问题转换为非约束优化问题：

L (w, b, ξ, α, r) = 1 2 w T w + C \sum i = 1 l ξ i - \sum i = 1 l α i (y i (w T \emptyset (x i) + b) - 1 + ξ i) - \sum i = 1 l r i ξ i

原问题等价为（最大参考KKT）：

m i n w, b m a x α i, ξ i L (w, b, α)

对偶问题：

m a x α i, ξ i m i n w, b L (w, b, α)

求导：

\partial L \partial w = w - \sum i = 1 l α i y i \emptyset (x i) = 0 \Rightarrow w = \sum i = 1 l α i y i \emptyset (x i)

\partial L \partial b = - \sum i = 1 l α i y i = 0 \Rightarrow \sum i = 1 l α i y i = 0

\partial L \partial ξ i = C - α i - r i = 0

带入计算：

maxαL(α)=12wT(∑li=1αiyi∅(xi))+C∑li=1ξi−∑li=1αi(yi(wT∅(xi)+b)−1+ξi)−∑li=1(C−αi)ξi=wT(12∑li=1αiyi∅(xi))+C∑li=1ξi−∑li=1Cξi−∑li=1αiyib+∑li=1αi−∑li=1αiξi+∑li=1αiξi=∑li=1αi−12wT∑li=1αiyi∅(xi)=∑li=1αi−12∑li,j=1αiyi∅(xi)Tαjyj∅(xj)=∑li=1αi−12∑li,j=1αiyiyj∅(xi)T∅(xj)αj=eTα−12αTQα
其中： e=[1,...,1]T,Qi,j≡yiyjK(xi,xj),K(xi,xj)≡∅(xi)T∅(xj)
对偶问题：

m i n α 1 2 α T Q α - e T α

前面的推导中有对偶优化问题的约束，约束条件：

s . t . y T α = 0

0 \leq α i \leq C, i = 1, . . ., l

构造拉格朗日函数求极值，对

α求导（令求导 = 0），算出

α，从而得出{w,b}
由于

w=∑li=1αiyi∅(xi)，分类函数表示为：

f (x) = \sum i = 1 l α i y i K (x i, x j) + b

由于

y∈{−1,1}，正类（1）与负类（-1），利用符号函数（sgn）：

s g n (w T \emptyset (x) + b) = s g n (\sum i = 1 l y i α i K (x i, x) + b)

—-（未完）—–

阅读全文

0 0