简单易学的机器学习算法——线性支持向量机

来源：互联网发布：淘宝积分怎么查手机编辑：程序博客网时间：2024/05/21 22:29

一、线性支持向量机的概念

线性支持向量机是针对线性不可分的数据集的，这样的数据集可以通过近似可分的方法实现分类。对于这样的数据集，类似线性可分支持向量机，通过求解对应的凸二次规划问题，也同样求得分离超平面

$w^\ast \cdot x+b^\ast =0$

以及相应的分类决策函数

$f\left ( x \right )=sign\left ( w^\ast \cdot x+b^\ast \right )$

二、与线性可分支持向量机的比较

线性支持向量机与线性可分支持向量机最大的不同就是在处理的问题上，线性可分支持向量机处理的是严格线性可分的数据集，而线性支持向量机处理的是线性不可分的数据集，然而，在基本的原理上他们却有着想通之处。这里的线性不可分是指数据集中存在某些点不能满足线性可分支持向量机的约束条件： $y_i\left ( w\cdot x_i+b \right )-1\geq 0$ 。

具体来讲，对于特征空间上的训练数据集 $T$ ，且 $T$ 不是线性可分的，即存在某些特异点不满足 $y_i\left ( w\cdot x_i+b \right )-1\geq 0$ 的约束条件，若将这些特异点去除，那么剩下的数据点是线性可分的，由此可见，线性可分支持向量机是线性支持向量机的特殊情况。为了解决这样的问题，对每个样本点 $\left ( x_i,y_i \right )$ 引入一个松弛变量 $\xi _i$ ，且 $\xi _i\geq 0$ ，则上述的约束条件被放宽，即：

$y_i\left ( w\cdot x_i+b \right )\geq 1-\xi _i$

此时目标函数变为：

$\frac{1}{2}\left \| w \right \|^2+C\sum_{i=1}^{N}\xi _i$

其中 $C$ 称为惩罚参数，且 $C> 0$ 。在线性支持向量机中加入了惩罚项，与线性可分支持向量的应间隔最大化相对应，在线性支持向量机中称为软间隔最大化。

三、线性支持向量机的原理

由上所述，我们得到线性支持向量机的原始问题：

$\min_{w,b,\xi }\frac{1}{2}\left \| w \right \|^2+C\sum_{i=1}^{N}\xi_i$

$s.t.\; \begin{matrix} y_i\left ( w\cdotx_i+b \right )\geq 1-\xi_i;\; i=1,2,\cdots,N\\ \xi_i\geq 0;\; i=1,2,\cdots,N \end{matrix}$

接下来的问题就变成如何求解这样一个最优化问题(称为原始问题)。引入拉格朗日函数：

$L\left ( w,b,\xi,\alpha ,u \right )=\frac{1}{2}\left \| w \right \|^2+C\sum_{i=1}^{N}\xi_i-\sum_{1}^{N}\alpha _i\left ( y_i\left ( w\cdotx_i+b \right )-1+\xi_i \right )-\sum_{i=1}^{N}u_i\xi_i$

其中， $\alpha _i\geq 0,\; u\geq 0$ 。

此时，原始问题即变成

$\min_{w,b,\xi}\max_{\alpha ,u}L\left ( w,b,\xi,\alpha ,u \right )$

利用拉格朗日函数的对偶性，将问题变成一个极大极小优化问题：

$\max_{\alpha ,u}\min_{w,b,\xi}L\left ( w,b,\xi,\alpha ,u \right )$

首先求解 $\min_{w,b,\xi}L\left ( w,b,\xi,\alpha ,u \right )$ ，将拉格朗日函数分别对 $w,b,\xi$ 求偏导，并令其为0：

$\left\{\begin{matrix} \frac{\partial L\left ( w,b,\xi,\alpha ,u \right )}{\partial w}=w-\sum_{i=1}^{N}\alpha _iy_ix_i=0\\ \frac{\partial L\left ( w,b,\xi,\alpha ,u \right )}{\partial b}=-\sum_{i=1}^{N}\alpha _iy_i=0\\ \frac{\partial L\left ( w,b,\xi,\alpha ,u \right )}{\partial \xi_i}=C-\alpha _i-u_i=0 \end{matrix}\right.$

即为：

$\left\{\begin{matrix} w=\sum_{i=1}^{N}\alpha _iy_ix_i\\ \sum_{i=1}^{N}\alpha _iy_i=0\\ C-\alpha _i-u_i=0 \end{matrix}\right.$

将其带入拉格朗日函数，即得：

$\min_{w,b,\xi}L\left ( w,b,\xi,\alpha ,u \right )=-\frac{1}{2}\sum_{i=1}^{N}\sum_{j=1}^{N}\alpha _i\alpha _jy_iy_j\left ( x_i\cdot x_j \right )+\sum_{i=1}^{N}\alpha _i$

第二步，求 $\max_{\alpha ,u}\min_{w,b,\xi}L\left ( w,b,\xi,\alpha ,u \right )$ ，即求：

$\max_{\alpha ,u}-\frac{1}{2}\sum_{i=1}^{N}\sum_{j=1}^{N}\alpha _i\alpha _jy_iy_j\left ( x_i\cdot x_j \right )+\sum_{i=1}^{N}\alpha _i$

$s.t.\; \begin{matrix} \sum_{i=1}^{N}\alpha _iy_i=0\\ C-\alpha _i-u_i=0\\ \alpha _i\geq 0\\ u_i\geq 0 \end{matrix}$

由 $C-\alpha _i-u_i=0,\alpha _i\geq 0,u_i\geq 0$ 可得 $0\leq \alpha _i\leq C$ ，因为在第二步求极大值的过程中，函数只与 $\alpha$ 有关。

将上述的极大值为题转化为极小值问题：

$\min_{\alpha}\frac{1}{2}\sum_{i=1}^{N}\sum_{j=1}^{N}\alpha _i\alpha _jy_iy_j\left ( x_i\cdot x_j \right )-\sum_{i=1}^{N}\alpha _i$

$s.t.\; \begin{matrix} \sum_{i=1}^{N}\alpha _iy_i=0\\ 0\leq \alpha _i\leq C\\ \end{matrix}$

这就是原始问题的对偶问题。

四、线性支持向量机的过程

1、设置惩罚参数 $C$ ，并求解对偶问题：

$\min_{\alpha}\frac{1}{2}\sum_{i=1}^{N}\sum_{j=1}^{N}\alpha _i\alpha _jy_iy_j\left ( x_i\cdot x_j \right )-\sum_{i=1}^{N}\alpha _i$

$s.t.\; \begin{matrix} \sum_{i=1}^{N}\alpha _iy_i=0\\ 0\leq \alpha _i\leq C\\ \end{matrix}$

假设求得的最优解为 $\alpha ^\ast$ ；

2、计算原始问题的最优解：

$w^\ast =\sum_{i=1}^{N}\alpha ^\ast y_ix_i$

选择 $\alpha ^\ast$ 中满足 $0< \alpha ^\ast_j<C$ 的分量，计算：

$b^\ast = y_j-\sum_{i=1}^{N}y_i\alpha ^\ast _j\left ( x_i\cdot x_j \right )$

3、求分离超平面和分类决策函数：

分离超平面为：

$w^\ast \cdot x+b^\ast =0$

分类决策函数为：

$f\left ( x \right )=sign\left ( w^\ast \cdot x+b^\ast \right )$

五、实验的仿真

1、解决线性可分问题

与博文“简单易学的机器学习算法——线性可分支持向量机”实验一样，其中 $C$ 取 $\alpha ^\ast$ 中的最大值。

MATLAB代码为

%% 线性支持向量机% 清空内存clear all;clc;%简单的测试数据集X = [3,3;4,3;1,1];y = [1,1,-1];%标签A = [X,y'];m = size(A);%得到训练数据的大小% 区分开特征与标签X = A(:,1:2);Y = A(:,m(1,2))';for i = 1:m(1,1)    X(i,:) = X(i,:)*Y(1,i);end%% 对偶问题，用二次规划来求解H = X*X';f = ones(m(1,1),1)*(-1);B = Y;b = 0;lb = zeros(m(1,1),1);% 调用二次规划的函数[x,fval,exitflag,output,lambda] = quadprog(H,f,[],[],B,b,lb);% 定义CC = max(x);% 求原问题的解n = size(x);w = x' * X;k = 1;for i = 1:n(1,1)    if x(i,1) > 0 && x(i,1)<C        b(k,1) = Y(1,i)-w*X(i,:)'*Y(1,i);        k = k +1;    endendb = mean(b);% 求出分离超平面y_1 = [0,4];for i = 1:2    y_2(1,i) = (-b-w(1,1)*y_1(1,i))./w(1,2);endhold onplot(y_1,y_2);for i = 1:m(1,1)    if A(i,m(1,2)) == -1        plot(A(i,1),A(i,2),'og');    elseif A(i,m(1,2)) == 1        plot(A(i,1),A(i,2),'+r')    endendaxis([0,7,0,7])  hold off

实验结果为：

(线性可分问题的分离超平面)

2、解决线性不可分问题

问题为：

(线性不可分问题)

MATLAB代码：

%% 线性支持向量机% 清空内存clear all;clc;% 导入测试数据A = load('testSet.txt');% 处理数据的标签m = size(A);%得到训练数据的大小for i = 1:m(1,1)    A(i,m(1,2)) = A(i,m(1,2))*2-1;end% 区分开特征与标签X = A(:,1:2);Y = A(:,m(1,2))';for i = 1:m(1,1)    X(i,:) = X(i,:)*Y(1,i);end%% 对偶问题，用二次规划来求解H = X*X';f = ones(m(1,1),1)*(-1);B = Y;b = 0;lb = zeros(m(1,1),1);% 调用二次规划的函数[x,fval,exitflag,output,lambda] = quadprog(H,f,[],[],B,b,lb);% 定义C% C = mean(x);C = max(x);% 求原问题的解n = size(x);w = x' * X;k = 1;for i = 1:n(1,1)    if x(i,1) > 0 && x(i,1)<C        b(k,1) = Y(1,i)-w*X(i,:)'*Y(1,i);        k = k +1;    endendb = mean(b);% 求出分离超平面y_1 = [-4,4];for i = 1:2    y_2(1,i) = (-b-w(1,1)*y_1(1,i))./w(1,2);endhold onplot(y_1,y_2);for i = 1:m(1,1)    if A(i,m(1,2)) == -1        plot(A(i,1),A(i,2),'og');    elseif A(i,m(1,2)) == 1        plot(A(i,1),A(i,2),'+r')    endendhold off

实验结果为：