机器学习之 libsvm 参数说明

来源：互联网发布：带着淘宝混异界叶忆落编辑：程序博客网时间：2024/05/16 06:28

因为要用svm做regression，所以看了一些关于libsvm，总结以备用

libsvm在训练model的时候，有如下参数要设置，当然有默认的参数，但是在具体应用方面效果会大大折扣。

Options：可用的选项即表示的涵义如下
　　-s svm类型：SVM设置类型(默认0)
　　0 -- C-SVC
　　1 --v-SVC
　　2 -- 一类SVM
　　3 -- e -SVR
　　4 -- v-SVR

　　-t 核函数类型：核函数设置类型(默认2)
　　0 – 线性：u'v
　　1 – 多项式：(r*u'v + coef0)^degree
　　2 – RBF函数：exp(-gamma|u-v|^2)
　　3 –sigmoid：tanh(r*u'v + coef0)

　　-d degree：核函数中的degree设置(针对多项式核函数)(默认3)
　　-g r(gama)：核函数中的gamma函数设置(针对多项式/rbf/sigmoid核函数)(默认1/ k)
　　-r coef0：核函数中的coef0设置(针对多项式/sigmoid核函数)((默认0)
　　-c cost：设置C-SVC，e -SVR和v-SVR的参数(损失函数)(默认1)
　　-n nu：设置v-SVC，一类SVM和v- SVR的参数(默认0.5)
　　-p p：设置e -SVR 中损失函数p的值(默认0.1)
　　-m cachesize：设置cache内存大小，以MB为单位(默认40)
　　-e eps：设置允许的终止判据(默认0.001)
　　-h shrinking：是否使用启发式，0或1(默认1)
　　-wi weight：设置第几类的参数C为weight*C(C-SVC中的C)(默认1)
　　-v n: n-fold交互检验模式，n为fold的个数，必须大于等于2
　　其中-g选项中的k是指输入数据中的属性数。option -v 随机地将数据剖分为n部

当构建完成model后，还要为上述参数选择合适的值，方法主要有Gridsearch,其他的感觉不常用，Gridsearch说白了就是穷举。

网格参数寻优函数(分类问题):SVMcgForClass
[bestCVaccuracy,bestc,bestg]=
SVMcgForClass(train_label,train,
cmin,cmax,gmin,gmax,v,cstep,gstep,accstep)

输入：
train_label:训练集的标签，格式要求与svmtrain相同。
train:训练集，格式要求与svmtrain相同。
cmin,cmax:惩罚参数c的变化范围，即在[2^cmin,2^cmax]范围内寻找最佳的参数c，默认值为cmin=-8，cmax=8，即默认惩罚参数c的范围是[2^(-8),2^8]。
gmin,gmax:RBF核参数g的变化范围，即在[2^gmin,2^gmax]范围内寻找最佳的RBF核参数g，默认值为gmin=-8，gmax=8，即默认RBF核参数g的范围是[2^(-8),2^8]。
v:进行Cross Validation过程中的参数，即对训练集进行v-fold Cross Validation，默认为3，即默认进行3折CV过程。
cstep,gstep:进行参数寻优是c和g的步进大小，即c的取值为2^cmin,2^(cmin+cstep),…,2^cmax,，g的取值为2^gmin,2^(gmin+gstep),…,2^gmax，默认取值为cstep=1,gstep=1。
accstep:最后参数选择结果图中准确率离散化显示的步进间隔大小（[0,100]之间的一个数），默认为4.5。

输出：
bestCVaccuracy:最终CV意义下的最佳分类准确率。
bestc:最佳的参数c。
bestg:最佳的参数g。

网格参数寻优函数(回归问题):

SVMcgForRegress

[bestCVmse,bestc,bestg]=
SVMcgForRegress(train_label,train,
cmin,cmax,gmin,gmax,v,cstep,gstep,msestep)
其输入输出与SVMcgForClass类似，这里不再赘述。

而当你训练完了model，在用它做classification或regression之前，应该知道model中的内容，以及其含义。

用来训练的是libsvm自带的heart数据

model =
Parameters: [5x1 double]
  nr_class: 2
  totalSV: 259   % 支持向量的数目
  rho: 0.0514   % b
  Label: [2x1 double] % classification中标签的个数
  ProbA: []
  ProbB: []
  nSV: [2x1 double]    % 每类支持向量的个数
  sv_coef: [259x1 double] % 支持向量对应的Wi

SVs: [259x13 double] % 装的是259个支持向量

model.Parameters参数意义从上到下依次为：
-s svm类型：SVM设置类型(默认0)
-t 核函数类型：核函数设置类型(默认2)
-d degree：核函数中的degree设置(针对多项式核函数)(默认3)
-g r(gama)：核函数中的gamma函数设置(针对多项式/rbf/sigmoid核函数) (默认类别数目的倒数)
-r coef0：核函数中的coef0设置(针对多项式/sigmoid核函数)((默认0)

SVM 怎样能得到好的结果

1. 对数据做归一化（simple scaling）

2. 应用 RBF kernel

3. 用cross-validation和grid-search得到最优的c和g

4. 用得到的最优c和g训练训练数据

5. 测试

0 0

机器学习 之 libsvm 参数说明

机器学习之 libsvm 参数说明