OpenCV之ml 模块. 机器学习：支持向量机(SVM)介绍支持向量机对线性不可分数据的处理

来源：互联网发布：无人机测绘软件编辑：程序博客网时间：2024/05/21 06:45

支持向量机(SVM)介绍

目标

本文档尝试解答如下问题:

如何使用OpenCV函数 CvSVM::train 训练一个SVM分类器，以及用 CvSVM::predict 测试训练结果。

什么是支持向量机(SVM)?

支持向量机 (SVM) 是一个类分类器，正式的定义是一个能够将不同类样本在样本空间分隔的超平面。换句话说，给定一些标记(label)好的训练样本 (监督式学习), SVM算法输出一个最优化的分隔超平面。

如何来界定一个超平面是不是最优的呢? 考虑如下问题：

假设给定一些分属于两类的2维点，这些点可以通过直线分割，我们要找到一条最优的分割线.

Note

在这个示例中，我们考虑卡迪尔平面内的点与线，而不是高维的向量与超平面。这一简化是为了让我们以更加直觉的方式建立起对SVM概念的理解，但是其基本的原理同样适用于更高维的样本分类情形。

在上面的图中，你可以直觉的观察到有多种可能的直线可以将样本分开。那是不是某条直线比其他的更加合适呢? 我们可以凭直觉来定义一条评价直线好坏的标准:

距离样本太近的直线不是最优的，因为这样的直线对噪声敏感度高，泛化性较差。因此我们的目标是找到一条直线，离所有点的距离最远。

由此， SVM算法的实质是找出一个能够将某个值最大化的超平面，这个值就是超平面离所有训练样本的最小距离。这个最小距离用SVM术语来说叫做 间隔(margin) 。概括一下，最优分割超平面 最大化 训练数据的间隔。

如何计算最优超平面?

下面的公式定义了超平面的表达式:

$f(x) = \beta_{0} + \beta^{T} x,$

$\beta$ 叫做 权重向量 ， $\beta_{0}$ 叫做 偏置(bias) 。

源码

 1 2 3 4 5 6 7 8 91011121314151617181920212223242526272829303132333435363738394041424344454647484950515253545556575859606162636465666768
#include <opencv2/core/core.hpp>#include <opencv2/highgui/highgui.hpp>#include <opencv2/ml/ml.hpp>using namespace cv;int main(){    // Data for visual representation    int width = 512, height = 512;    Mat image = Mat::zeros(height, width, CV_8UC3);    // Set up training data    float labels[4] = {1.0, -1.0, -1.0, -1.0};    Mat labelsMat(3, 1, CV_32FC1, labels);    float trainingData[4][2] = { {501, 10}, {255, 10}, {501, 255}, {10, 501} };    Mat trainingDataMat(3, 2, CV_32FC1, trainingData);    // Set up SVM's parameters    CvSVMParams params;    params.svm_type    = CvSVM::C_SVC;    params.kernel_type = CvSVM::LINEAR;    params.term_crit   = cvTermCriteria(CV_TERMCRIT_ITER, 100, 1e-6);    // Train the SVM    CvSVM SVM;    SVM.train(trainingDataMat, labelsMat, Mat(), Mat(), params);        Vec3b green(0,255,0), blue (255,0,0);    // Show the decision regions given by the SVM    for (int i = 0; i < image.rows; ++i)        for (int j = 0; j < image.cols; ++j)        {            Mat sampleMat = (Mat_<float>(1,2) << i,j);            float response = SVM.predict(sampleMat);            if (response == 1)                image.at<Vec3b>(j, i)  = green;            else if (response == -1)                  image.at<Vec3b>(j, i)  = blue;        }    // Show the training data    int thickness = -1;    int lineType = 8;    circle( image, Point(501,  10), 5, Scalar(  0,   0,   0), thickness, lineType);    circle( image, Point(255,  10), 5, Scalar(255, 255, 255), thickness, lineType);    circle( image, Point(501, 255), 5, Scalar(255, 255, 255), thickness, lineType);    circle( image, Point( 10, 501), 5, Scalar(255, 255, 255), thickness, lineType);    // Show support vectors    thickness = 2;    lineType  = 8;    int c     = SVM.get_support_vector_count();    for (int i = 0; i < c; ++i)    {        const float* v = SVM.get_support_vector(i);        circle( image,  Point( (int) v[0], (int) v[1]),   6,  Scalar(128, 128, 128), thickness, lineType);    }    imwrite("result.png", image);        // save the image     imshow("SVM Simple Example", image); // show it to the user    waitKey(0);}

解释

建立训练样本

本例中的训练样本由分属于两个类别的2维点组成，其中一类包含一个样本点，另一类包含三个点。
float labels[4] = {1.0, -1.0, -1.0, -1.0};float trainingData[4][2] = {{501, 10}, {255, 10}, {501, 255}, {10, 501}};
函数 CvSVM::train 要求训练数据储存于float类型的 Mat 结构中，因此我们定义了以下矩阵:
Mat trainingDataMat(3, 2, CV_32FC1, trainingData);Mat labelsMat      (3, 1, CV_32FC1, labels);

设置SVM参数
此教程中，我们以可线性分割的分属两类的训练样本简单讲解了SVM的基本原理。然而，SVM的实际应用情形可能复杂得多 (比如非线性分割数据问题，SVM核函数的选择问题等等)。总而言之，我们需要在训练之前对SVM做一些参数设定。这些参数保存在类 CvSVMParams 中。
```
CvSVMParams params;params.svm_type    = CvSVM::C_SVC;params.kernel_type = CvSVM::LINEAR;params.term_crit   = cvTermCriteria(CV_TERMCRIT_ITER, 100, 1e-6);
```
- SVM类型. 这里我们选择了 CvSVM::C_SVC 类型，该类型可以用于n-类分类问题 (n $\geq$ 2)。这个参数定义在CvSVMParams.svm_type 属性中.
  Note
  
  CvSVM::C_SVC 类型的重要特征是它可以处理非完美分类的问题 (及训练数据不可以完全的线性分割)。在本例中这一特征的意义并不大，因为我们的数据是可以线性分割的，我们这里选择它是因为它是最常被使用的SVM类型。
- SVM 核类型. 我们没有讨论核函数，因为对于本例的样本，核函数的讨论没有必要。然而，有必要简单说一下核函数背后的主要思想，核函数的目的是为了将训练样本映射到更有利于可线性分割的样本集。映射的结果是增加了样本向量的维度，这一过程通过核函数完成。此处我们选择的核函数类型是 CvSVM::LINEAR 表示不需要进行映射。该参数由CvSVMParams.kernel_type 属性定义。
- 算法终止条件. SVM训练的过程就是一个通过迭代方式解决约束条件下的二次优化问题，这里我们指定一个最大迭代次数和容许误差，以允许算法在适当的条件下停止计算。该参数定义在 cvTermCriteria 结构中。

训练支持向量机

调用函数 CvSVM::train 来建立SVM模型。

CvSVM SVM;SVM.train(trainingDataMat, labelsMat, Mat(), Mat(), params);

SVM区域分割

函数 CvSVM::predict 通过重建训练完毕的支持向量机来将输入的样本分类。本例中我们通过该函数给向量空间着色，及将图像中的每个像素当作卡迪尔平面上的一点，每一点的着色取决于SVM对该点的分类类别：绿色表示标记为1的点，蓝色表示标记为-1的点。
Vec3b green(0,255,0), blue (255,0,0);for (int i = 0; i < image.rows; ++i)    for (int j = 0; j < image.cols; ++j)    {    Mat sampleMat = (Mat_<float>(1,2) << i,j);    float response = SVM.predict(sampleMat);    if (response == 1)       image.at<Vec3b>(j, i)  = green;    else    if (response == -1)       image.at<Vec3b>(j, i)  = blue;    }

支持向量
这里用了几个函数来获取支持向量的信息。函数 CvSVM::get_support_vector_count 输出支持向量的数量，函数CvSVM::get_support_vector 根据输入支持向量的索引来获取指定位置的支持向量。通过这一方法我们找到训练样本的支持向量并突出显示它们。
```
int c     = SVM.get_support_vector_count();for (int i = 0; i < c; ++i){const float* v = SVM.get_support_vector(i); // get and then highlight with grayscalecircle(   image,  Point( (int) v[0], (int) v[1]),   6,  Scalar(128, 128, 128), thickness, lineType);}
```

结果

程序创建了一张图像，在其中显示了训练样本，其中一个类显示为白色圆圈，另一个类显示为黑色圆圈。
训练得到SVM，并将图像的每一个像素分类。分类的结果将图像分为蓝绿两部分，中间线就是最优分割超平面。
最后支持向量通过灰色边框加重显示。

支持向量机对线性不可分数据的处理

目标

本文档尝试解答如下问题:

在训练数据线性不可分时，如何定义此情形下支持向量机的最优化问题。
如何设置 CvSVMParams 中的参数来解决此类问题。

动机

为什么需要将支持向量机优化问题扩展到线性不可分的情形？在多数计算机视觉运用中，我们需要的不仅仅是一个简单的SVM线性分类器，我们需要更加强大的工具来解决 训练数据无法用一个超平面分割 的情形。

我们以人脸识别来做一个例子，训练数据包含一组人脸图像和一组非人脸图像(除了人脸之外的任何物体)。这些训练数据超级复杂，以至于为每个样本找到一个合适的表达 (特征向量) 以让它们能够线性分割是非常困难的。

最优化问题的扩展

还记得我们用支持向量机来找到一个最优超平面。既然现在训练数据线性不可分，我们必须承认这个最优超平面会将一些样本划分到错误的类别中。在这种情形下的优化问题，需要将 错分类(misclassification) 当作一个变量来考虑。新的模型需要包含原来线性可分情形下的最优化条件，即最大间隔(margin), 以及在线性不可分时分类错误最小化。

我们还是从最大化间隔这一条件来推导我们的最优化问题的模型(这在 前一节 已经讨论了):

$\min_{\beta, \beta_{0}} L(\beta) = \frac{1}{2}||\beta||^{2} \text{ subject to } y_{i}(\beta^{T} x_{i} + \beta_{0}) \geq 1 \text{ } \forall i$

在这个模型中加入错分类变量有多种方法。比如，我们可以最小化一个函数，该函数定义为在原来模型的基础上再加上一个常量乘以样本被错误分类的次数:

$\min ||\beta||^{2} + C \text{(\# misclassication errors)}$

然而，这并不是一个好的解决方案，其中一个原因是它没有考虑错分类的样本距离同类样本所属区域的大小。因此一个更好的方法是考虑 错分类样本离同类区域的距离:

$\min ||\beta||^{2} + C \text{(distance of misclassified samples to their correct regions)}$

这里为每一个样本定义一个新的参数 $\xi_{i}$ ，这个参数包含对应样本离同类区域的距离。下图显示了两类线性不可分的样本，以及一个分割超平面和错分类样本距离同类区域的距离。

Samples misclassified and their distances to their correct regions

Note

图中只显示了错分类样本的距离，其余样本由于已经处于同类区域内部所以距离为零。

红色和蓝色直线表示各自区域的边际间隔，每个 $\xi_{i}$ 表示从错分类样本到同类区域边际间隔的距离。

最后我们得到最优问题的最终模型:

$\min_{\beta, \beta_{0}} L(\beta) = ||\beta||^{2} + C \sum_{i} {\xi_{i}} \text{ subject to } y_{i}(\beta^{T} x_{i} + \beta_{0}) \geq 1 - \xi_{i} \text{ and } \xi_{i} \geq 0 \text{ } \forall i$

关于参数C的选择，明显的取决于训练样本的分布情况。尽管并不存在一个普遍的答案，但是记住下面几点规则还是有用的:

C比较大时分类错误率较小，但是间隔也较小。在这种情形下，错分类对模型函数产生较大的影响，既然优化的目的是为了最小化这个模型函数，那么错分类的情形必然会受到抑制。
C比较小时间隔较大，但是分类错误率也较大。在这种情形下，模型函数中错分类之和这一项对优化过程的影响变小，优化过程将更加关注于寻找到一个能产生较大间隔的超平面。

源码

你可以从OpenCV源码库文件夹 samples/cpp/tutorial_code/gpu/non_linear_svms/non_linear_svms 下载源码和视频，或者 从此处下载.

  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99100101102103104105106107108109110111112113114115116117118
#include <iostream>#include <opencv2/core/core.hpp>#include <opencv2/highgui/highgui.hpp>#include <opencv2/ml/ml.hpp>#define NTRAINING_SAMPLES   100         // Number of training samples per class#define FRAC_LINEAR_SEP     0.9f        // Fraction of samples which compose the linear separable partusing namespace cv;using namespace std;int main(){    // Data for visual representation    const int WIDTH = 512, HEIGHT = 512;    Mat I = Mat::zeros(HEIGHT, WIDTH, CV_8UC3);    //--------------------- 1. Set up training data randomly ---------------------------------------    Mat trainData(2*NTRAINING_SAMPLES, 2, CV_32FC1);    Mat labels   (2*NTRAINING_SAMPLES, 1, CV_32FC1);        RNG rng(100); // Random value generation class    // Set up the linearly separable part of the training data    int nLinearSamples = (int) (FRAC_LINEAR_SEP * NTRAINING_SAMPLES);    // Generate random points for the class 1    Mat trainClass = trainData.rowRange(0, nLinearSamples);    // The x coordinate of the points is in [0, 0.4)    Mat c = trainClass.colRange(0, 1);    rng.fill(c, RNG::UNIFORM, Scalar(1), Scalar(0.4 * WIDTH));    // The y coordinate of the points is in [0, 1)    c = trainClass.colRange(1,2);    rng.fill(c, RNG::UNIFORM, Scalar(1), Scalar(HEIGHT));    // Generate random points for the class 2    trainClass = trainData.rowRange(2*NTRAINING_SAMPLES-nLinearSamples, 2*NTRAINING_SAMPLES);    // The x coordinate of the points is in [0.6, 1]    c = trainClass.colRange(0 , 1);     rng.fill(c, RNG::UNIFORM, Scalar(0.6*WIDTH), Scalar(WIDTH));    // The y coordinate of the points is in [0, 1)    c = trainClass.colRange(1,2);    rng.fill(c, RNG::UNIFORM, Scalar(1), Scalar(HEIGHT));    //------------------ Set up the non-linearly separable part of the training data ---------------    // Generate random points for the classes 1 and 2    trainClass = trainData.rowRange(  nLinearSamples, 2*NTRAINING_SAMPLES-nLinearSamples);    // The x coordinate of the points is in [0.4, 0.6)    c = trainClass.colRange(0,1);    rng.fill(c, RNG::UNIFORM, Scalar(0.4*WIDTH), Scalar(0.6*WIDTH));     // The y coordinate of the points is in [0, 1)    c = trainClass.colRange(1,2);    rng.fill(c, RNG::UNIFORM, Scalar(1), Scalar(HEIGHT));        //------------------------- Set up the labels for the classes ---------------------------------    labels.rowRange(                0,   NTRAINING_SAMPLES).setTo(1);  // Class 1    labels.rowRange(NTRAINING_SAMPLES, 2*NTRAINING_SAMPLES).setTo(2);  // Class 2    //------------------------ 2. Set up the support vector machines parameters --------------------    CvSVMParams params;    params.svm_type    = SVM::C_SVC;    params.C           = 0.1;    params.kernel_type = SVM::LINEAR;    params.term_crit   = TermCriteria(CV_TERMCRIT_ITER, (int)1e7, 1e-6);    //------------------------ 3. Train the svm ----------------------------------------------------    cout << "Starting training process" << endl;    CvSVM svm;    svm.train(trainData, labels, Mat(), Mat(), params);    cout << "Finished training process" << endl;        //------------------------ 4. Show the decision regions ----------------------------------------    Vec3b green(0,100,0), blue (100,0,0);    for (int i = 0; i < I.rows; ++i)        for (int j = 0; j < I.cols; ++j)        {            Mat sampleMat = (Mat_<float>(1,2) << i, j);            float response = svm.predict(sampleMat);            if      (response == 1)    I.at<Vec3b>(j, i)  = green;            else if (response == 2)    I.at<Vec3b>(j, i)  = blue;        }    //----------------------- 5. Show the training data --------------------------------------------    int thick = -1;    int lineType = 8;    float px, py;    // Class 1    for (int i = 0; i < NTRAINING_SAMPLES; ++i)    {        px = trainData.at<float>(i,0);        py = trainData.at<float>(i,1);        circle(I, Point( (int) px,  (int) py ), 3, Scalar(0, 255, 0), thick, lineType);    }    // Class 2    for (int i = NTRAINING_SAMPLES; i <2*NTRAINING_SAMPLES; ++i)    {        px = trainData.at<float>(i,0);        py = trainData.at<float>(i,1);        circle(I, Point( (int) px, (int) py ), 3, Scalar(255, 0, 0), thick, lineType);    }    //------------------------- 6. Show support vectors --------------------------------------------    thick = 2;    lineType  = 8;    int x     = svm.get_support_vector_count();    for (int i = 0; i < x; ++i)    {        const float* v = svm.get_support_vector(i);        circle( I,  Point( (int) v[0], (int) v[1]), 6, Scalar(128, 128, 128), thick, lineType);    }    imwrite("result.png", I);                      // save the Image    imshow("SVM for Non-Linear Training Data", I); // show it to the user    waitKey(0);}

解释

建立训练样本

本例中的训练样本由分属于两个类别的2维点组成。为了让程序更加吸引人，我们用均匀概率密度函数(PDF)随机生成样本.

我们将样本的生成代码分成两部分。

在第一部分我们生成两类线性可分样本

// class 1 随机样本生成Mat trainClass = trainData.rowRange(0, nLinearSamples);// x 坐标范围 [0, 0.4)Mat c = trainClass.colRange(0, 1);rng.fill(c, RNG::UNIFORM, Scalar(1), Scalar(0.4 * WIDTH));// y 坐标范围 [0, 1)c = trainClass.colRange(1,2);rng.fill(c, RNG::UNIFORM, Scalar(1), Scalar(HEIGHT));// class 2 随机样本生成trainClass = trainData.rowRange(2*NTRAINING_SAMPLES-nLinearSamples, 2*NTRAINING_SAMPLES);// x 坐标范围 [0.6, 1]c = trainClass.colRange(0 , 1);rng.fill(c, RNG::UNIFORM, Scalar(0.6*WIDTH), Scalar(WIDTH));// y 坐标范围 [0, 1)c = trainClass.colRange(1,2);rng.fill(c, RNG::UNIFORM, Scalar(1), Scalar(HEIGHT));

在第二部分我们同时生成重叠分布线性不可分的两类样本.

// classes 1 ， 2 随机样本生成trainClass = trainData.rowRange(  nLinearSamples, 2*NTRAINING_SAMPLES-nLinearSamples);// x 坐标范围  [0.4, 0.6)c = trainClass.colRange(0,1);rng.fill(c, RNG::UNIFORM, Scalar(0.4*WIDTH), Scalar(0.6*WIDTH));// y 坐标范围  [0, 1)c = trainClass.colRange(1,2);rng.fill(c, RNG::UNIFORM, Scalar(1), Scalar(HEIGHT));

设置SVM参数

See also

前一节 支持向量机(SVM)介绍 提到了类 CvSVMParams 中的一些参数需要在训练SVM之前设置。
CvSVMParams params;params.svm_type    = SVM::C_SVC;params.C              = 0.1;params.kernel_type = SVM::LINEAR;params.term_crit   = TermCriteria(CV_TERMCRIT_ITER, (int)1e7, 1e-6);
这里的设置和 前一节 的设置有两处不一样的地方
CvSVM::C_SVC. 此处取值较小，目的是优化时不过分惩罚分类错误。这样做的目的是为了得到一个与直觉预期比较接近的分隔线。您可以通过调整该参数来加深你对问题的理解。
Note

这里在两类之间重叠区域的点比较少，缩小 FRAC_LINEAR_SEP 会增加不可分区域的点数，此时 CvSVM::C_SVC 参数的调整对结果的影响深远。
算法终止条件. 最大迭代次数需要显著增加来容许非线性可分的训练数据，这里的最大迭代设置是前一节的10的5次方倍。

训练支持向量机

调用函数 CvSVM::train 来建立SVM模型。注意训练过程可能耗时比较长，您需要多一点耐心来等待。
CvSVM svm;svm.train(trainData, labels, Mat(), Mat(), params);

SVM区域分割

函数 CvSVM::predict 通过重建训练完毕的支持向量机来将输入的样本分类。本例中我们通过该函数给向量空间着色，即将图像中的每个像素当作卡迪尔平面上的一点，每一点的着色取决于SVM对该点的分类类别：深绿色表示分类为1的点，深蓝色表示分类为2的点。
Vec3b green(0,100,0), blue (100,0,0);for (int i = 0; i < I.rows; ++i)     for (int j = 0; j < I.cols; ++j)     {          Mat sampleMat = (Mat_<float>(1,2) << i, j);          float response = svm.predict(sampleMat);          if      (response == 1)    I.at<Vec3b>(j, i)  = green;          else if (response == 2)    I.at<Vec3b>(j, i)  = blue;     }

显示训练样本

函数 circle 被用来显示训练样本。标记为1的样本用浅绿表示，标记为2的样本用浅蓝表示。

int thick = -1;int lineType = 8;float px, py;// Class 1for (int i = 0; i < NTRAINING_SAMPLES; ++i){     px = trainData.at<float>(i,0);     py = trainData.at<float>(i,1);     circle(I, Point( (int) px,  (int) py ), 3, Scalar(0, 255, 0), thick, lineType);}// Class 2for (int i = NTRAINING_SAMPLES; i <2*NTRAINING_SAMPLES; ++i){     px = trainData.at<float>(i,0);     py = trainData.at<float>(i,1);     circle(I, Point( (int) px, (int) py ), 3, Scalar(255, 0, 0), thick, lineType);}

支持向量

这里用了几个函数来获取支持向量的信息。函数 CvSVM::get_support_vector_count 输出支持向量的数量，函数CvSVM::get_support_vector 根据输入支持向量的索引来获取指定位置的支持向量。通过这一方法我们找到训练样本的支持向量并突出显示它们。
thick = 2;lineType  = 8;int x     = svm.get_support_vector_count();for (int i = 0; i < x; ++i){     const float* v = svm.get_support_vector(i);     circle(     I,  Point( (int) v[0], (int) v[1]), 6, Scalar(128, 128, 128), thick, lineType);}

结果

程序创建了一张图像，在其中显示了训练样本，其中一个类显示为浅绿色圆圈，另一个类显示为浅蓝色圆圈。
训练得到SVM，并将图像的每一个像素分类。分类的结果将图像分为蓝绿两部分，中间线就是最优分割超平面。由于样本非线性可分，自然就有一些被错分类的样本。一些绿色点被划分到蓝色区域，一些蓝色点被划分到绿色区域。
最后支持向量通过灰色边框加重显示。

Training data and decision regions given by the SVM

你可以在 YouTube 观看本程序的实时运行.

from: http://www.opencv.org.cn/opencvdoc/2.3.2/html/doc/tutorials/ml/table_of_content_ml/table_of_content_ml.html#table-of-content-ml

0 0

OpenCV之ml 模块. 机器学习：支持向量机(SVM)介绍 支持向量机对线性不可分数据的处理

支持向量机(SVM)介绍

目标

什么是支持向量机(SVM)?

如何计算最优超平面?

源码

解释

结果

支持向量机对线性不可分数据的处理

目标

动机

最优化问题的扩展

源码

解释

结果

OpenCV之ml 模块. 机器学习：支持向量机(SVM)介绍支持向量机对线性不可分数据的处理