R语言基于支持向量机训练模型实现类预测

来源:互联网 发布:mac下载的软件在哪里 编辑:程序博客网 时间:2024/06/05 03:33

前面介绍了基于训练集训练SVM的方法。通过训练,算法能找到使间隔区间最大化的最优平面来分割训练数据集,得到SVM模型能够被用来预测新到样例的类别。

准备

使用之前构建的churn构建的model.

操作

利用已构建的SVM模型和测试数据集的属性预测它的模型

svm.pred = predict(model,testset[,!names(testset) %in% c("churn")])svm.table = table(svm.pred,testset$churn)svm.tablesvm.pred yes  no     yes  70  12     no   71 865

调用classAgreement计算分类一致性

classAgreement(svm.table)$diag[1] 0.9184676$kappa[1] 0.5855903$rand[1] 0.850083$crand[1] 0.5260472

调用confusionMatrix基于分类表评测预测性能

library(lattice)library(ggplot2)library(caret)confusionMatrix(svm.table)Confusion Matrix and Statisticssvm.pred yes  no     yes  70  12     no   71 865               Accuracy : 0.9185                           95% CI : (0.8999, 0.9345)    No Information Rate : 0.8615              P-Value [Acc > NIR] : 1.251e-08                         Kappa : 0.5856           Mcnemar's Test P-Value : 1.936e-10                   Sensitivity : 0.49645                     Specificity : 0.98632                  Pos Pred Value : 0.85366                  Neg Pred Value : 0.92415                      Prevalence : 0.13851                  Detection Rate : 0.06876            Detection Prevalence : 0.08055               Balanced Accuracy : 0.74139                'Positive' Class : yes             

说明

本节首先调用predict函数获得测试数据集的预测模型,然后用table函数产生测试数据集的分类表,接下来的性能评测过程与前述章节其他方法其他分类方法的评测类似。
引入了一个新的函数classAgreement用来计算一个二维列联表行列之间多种一致性关系数。
diag系数为分类表主对角性上数据点的百分比,kappa系数是对diag系数随机一致性的修正,rand代表聚类评价指标(rand index),主要用来横量两个聚簇之间的相似性,crand系数是出现元素随机分类情况对Rand index 修正结果。

SVM回归分析

还可以使用SVM预测连续变量,也就是使用SVM实现回归分析。在接下来的样例中,我们使用名为eps-regression模型说明如何使用SVM执行回归分析。
使用Quartet数据集来训练一个支持向量机:

library(car)data(Quartet)model.regression = svm(Quartet$y1~Quartet$x,type = "eps-regression")

使用predict函数得到预测结果

predict.y = predict(model.regression,Quartet$x)predict.y

调用plot绘图函数,预测值用正方形,训练数据用圆形:

plot(Quartet$x,Quartet$y1,pch = 19)points(Quartet$x,predict.y,pch = 15,col = "red")
原创粉丝点击