【机器学习实战07】SVM--LibSVM工具包的使用
来源:互联网 发布:编程招聘 编辑:程序博客网 时间:2024/05/04 06:10
LIBSVM是台湾大学林智仁(LinChih-Jen)教授等开发设计的一个简单、易于使用和快速有效的SVM模式识别与回归的软件包,他不但提供了编译好的可在Windows系列系统的执行文件,还提供了源代码,方便改进、修改以及在其它操作系统上应用;该软件对SVM所涉及的参数调节相对比较少,提供了很多的默认参数,利用这些默认参数可以解决很多问题;并提供了交互检验(Cross Validation)的功能。
1、准备工作
由于从官网下的最新的2015.12月发布的libsvm-3.21版本中已生成的exe文件不支持Windows32位系统,所以使用的之前的一版libsvm-3.20。将其下下来打开,里面包含了以下文件:
其中data里面放的是LibSVM分享的数据集a1a;
gnuplot是一个图像绘画工具,可以将数据可视化。直接点击进行安装,路径可以自己选择,本例中安装路径为F:\Program Files\gnuplot。
libsvm-3.20是一个已开发好的集成工具包,我们拿来直接用。将libsvm-3.20压缩包解压,路径可以自己选择,本例中解压路径为F:\Program Files\libsvm-3.20。
打开tools文件夹,然后分别打开easy.py和grid.py,将easy.py中出现在else语句中的gnuplot_exe和 grid.py中self.gnuplot_pathname修改为gnuplot.exe所在路径,如下:
现在还差一个工具,就是python。没有安装python的可以从python官网 下载安装。路径可以自己选择,本例中安装路径为C:\Python27
以上几步完成后,准备工作就结束了。
2、LibSVM的使用
如果数据集较小的话,可以直接在libsvm-3.20中的tools 文件夹下使用命令:python easy.py training_file [testing_file]。否则处理过程如下:
1、使用网格搜索grid.py训练出最优参数惩罚因子C和参数g,g也就是核函数公式中的γ。 步骤如下:
首先将data中的两个数据集文件复制到刚解压的libsvm-3.20中的tools 文件夹下,然后打开cmd命令行,通过cd进入到tools文件夹下,输入如下命令,如图:
打开两个数据集SVM的结果:
打开图片:
Best c=2.0, g=0.001953125 CV rate(准确率)=82.9907
Best c=0.125, g=0.125 CV rate(准确率)=97.2182
2、训练模型
在获得最优参数后,我们就可以对训练数据集进行训练,来获得训练模型,步骤如下:
首先从cmd命令行中进入libsvm-3.20中的windows文件夹,可以看到文件夹中有svm-toy.exe、svm-scale.exe、svm-train.exe、svm-predict.exe四个可执行文件,其中:
svm-toy.exe是一个可视化应用程序,显示了对平面中数据点的分类。有change、run、clear、save、load及参数设置框,默认最大分类数为3,大家可以点点看,效果如下:
svm-scale.exe是对输入的数据特征进行归一化缩放,从而避免某些过大或过小特征值对分类效果的影响。使用方式如下:
svm-scale [options] data_filename,其中options列表有以下几种:
-l lower : x缩放最小值,默认为-1
-u upper : x缩放最大值,默认为1
-y y_lower y_upper : y scaling limits (default: no y scaling)
-s save_filename : save scaling parameters to save_filename
-r restore_filename : restore scaling parameters from restore_filename
svm-train.exe对训练集训练,产生训练模型。使用方式如下:
svm-train [options] training_set_file [model_file],其中常用options列表有以下几种:
-s svm_type : SVM类型 (默认0)
0 – C-SVC (多类分类器)
1 – nu-SVC (多类分类器)
2 – one-class SVM
3 – epsilon-SVR (回归)
4 – nu-SVR (回归)
-t kernel_type : 核函数类型 (默认 2)
0 – 线性核:μ′∗ν
1 – 多项式核:(γ∗μ′∗ν+coef0)degree
2 – 径向基核:exp(−γ∗||μ−ν||2)
3 – sigmoid核:tanh(γ∗μ′∗ν+coef0)
4 – precomputed kernel (kernel values in training_set_file)
-d degree : 多项式核最高项次数 (default 3)
-g gamma : 核函数中γ 值(默认1N,N为特征数目)
-r coef0 : 多项式核与sigmoid核中的参数(default 0)
-c cost : 设置C-SVC, e -SVR和v-SVR的损失函数(default 1)
svm-predict.exe利用测试集和生成的训练模型而得到预测模型,使用方式如下:
svm-predict [options] test_file model_file output_file,其中options列表有:
-b probability_estimates: 是否预测概率估计,用0或1表示(默认0);对于for one-class SVM ,只有0可选。
介绍完这几个可执行文件后,下面我们就要用它们来训练和预测模型。
1.对于a1a数据集,特征值为0或者1,故不需要使用svm-scale.exe来缩放数据,若有数据集的特征值差异较大,应首先使用svm-scale.exe进行数据缩放。
2.命令行进入windows文件夹,输入命令:svm-train.exe -c 2.0 -g 0.0078125 ../tools/adultTrain.txt ../tools/adultTrain.model,生成训练模型文件adultTrain.model,演示如下:
其中,iter表示迭代计算次数;
nu即核函数中的ν参数;
obj为二次规划求解的最小值;
rho为偏置b;
nSV为标准支持向量个数,即满足0<αi< C的个数;
nBSV为边界上的支持向量个数,即满足αi= C的个数;
Total nSV为支持向量总个数。
3.输入命令:svm-predict.exe ../tools/adultTest.t ../tools/adultTrain.model ../tools/audltPredict.model,利用测试集和训练模型文件获得预测模型文件,并得到模型在测试集上的分类准确率,颜色如下:
4.作为对比,同时训练了多项式核函数(参数最优)和径向基核函数(未参数最优),结果分别如下:
三者比较可知,选择了参数最优的径向基核在该数据集上的分类效果最好,准确率为84.0225。
- 【机器学习实战07】SVM--LibSVM工具包的使用
- libsvm svm-scale的学习和使用
- 机器学习实战--svm
- libsvm工具包学习使用的一个好博客
- 【机器学习实战07】理解SVM
- 机器学习实战之SVM
- 系统学习机器学习之SVM(三)--Liblinear,LibSVM使用整理,总结
- MATLAB自带的svm实现函数与libsvm差别小议(机器学习)
- MATLAB自带的svm实现函数与libsvm差别小议(机器学习)
- 【机器学习系列】libsvm中的svm-toy尝试
- 【机器学习】用libsvm C++训练SVM模型
- 学习SVM(libsvm)的点滴
- 【机器学习系列】libsvm的使用问题收集
- svm理论与实验之11:svm开发工具包LibSVM
- 机器学习实战笔记6(SVM)
- 机器学习实战【6】(非线性SVM)
- 转载-机器学习实战之SVM
- 【LIBSVM】使用C++和LIBSVM实现机器学习+样本分类
- Piwik的数据库表结构
- java中hashmap与hashtable的区别
- Git学习笔记
- 数据结构实验之排序六:希尔排序
- RecycleView之诡异bug
- 【机器学习实战07】SVM--LibSVM工具包的使用
- 【华为练习题】 阿姆斯特朗数(初级)
- Ubuntu 安装 OpenCV3.0
- 深入linux中重定向及管道详解
- 那些证书相关的玩意儿(SSL,X.509,PEM,DER,CRT,CER,KEY,CSR,P12等)
- MySQL 使用自增ID主键和UUID 作为主键的优劣比较详细过程(500W单表)
- Managing Network Usage
- [BZOJ2049] [SDOI2008] 洞穴勘测
- CF 366a Dima and Guards