SVM中决策距离（函数）计算

来源：互联网发布：淘宝客服今日总结编辑：程序博客网时间：2024/05/02 01:22

sklearn中的SVM算法使用了liblinear和libsvm两个包，而且模型参数略有区别。

在sklearn中，SVM有SVC和SVR之分，且有四种核函数如下，所以在SVM的参数中有些模型需要，有些模型不需要。

linear: $\langle x, x'\rangle$ .
polynomial: $(\gamma \langle x, x'\rangle + r)^d$ . $d$ is specified by keyword degree, $r$ by coef0.
rbf: $\exp(-\gamma |x-x'|^2)$ . $\gamma$ is specified by keyword gamma, must be greater than 0.
sigmoid ( $\tanh(\gamma \langle x,x'\rangle + r)$ ), where $r$ is specified by coef0.

sklearn中SVM模型的参数（函数）很多，以svm.SVC.linear为例，有如下这些：

linear.C（正则项惩罚因子） linear.degree （polynomial独有，默认为3次多项式）

linear.max_iter（最大跌打次数） linear.random_state

linear.cache_size（运行内存大小） linear.dual_coef_ （对偶函数的系数，在计算sigmoid概率时用）

linear.n_support_ （支持向量个数） linear.score
linear.class_weight linear.epsilon linear.nu linear.set_params
linear.class_weight_ linear.fit（函数，用于模型训练） l

inear.predict （函数，用于模型预测） linear.shape_fit_
linear.classes_ linear.fit_status_ linear.predict_log_proba（log概率值预测） linear.shrinking
linear.coef0 （polynomial/sigmoid使用） linear.gamma

linear.predict_proba（概率值预测） linear.support_（支持向量index）
linear.coef_ （各个特征权重，即预测的w） linear.get_params

linear.probA_ linear.probB_ linear.support_vectors_
linear.decision_function（函数，计算决策值） linear.intercept_ （截距，即预测的b，libsvm中为rho）

linear.tol（模型训练的容错值）linear.decision_function_shape linear.kernel（kernel类型）

linear.probability（True/False，是否设置可以计算概率值，略微会影响速度） linear.verbose

决策函数的计算linear.decision_function

因为线性核函数最终预测的法平面为y=linear.coef_ * X + linear.intercept_ , 而点X到法平面的距离为

|linear.coef_ * X + linear.intercept_| / ||linear.coef_||,决策函数并没有采用距离计算，而是，直接:

decision_function = linear.coef_ * X + linear.intercept_，其若大于0则label预测为1，否则预测为0。

根据SKLearn中决策函数的定义：

之所以可以直接使用 linear.coef_ * X + linear.intercept_计算，是因为linear.coef_ 为linear.dual_coef_ （为一个n维向量，n为选取的支持向量的个数）和linear.support_vectors_（二位向量[支持向量个数，特征个数]）的内积，最终的内积linear.coef_为大小等于特征个数的向量。

关于libsvm可以参考如下：

http://my.oschina.net/u/1461744/blog/209104

最近在看的资料里涉及到计算点到支持向量机分类超平面的距离这一点内容，我使用的svm是libsvm。

由于是新手，虽然看了一些资料，但中英转换误差等等原因导致经常出现理解错误，因此对libsvm的了解是磕磕绊绊。在摸索libsvm各种返回值的意义和运用它产生的结果文件过程中绕了不少弯。

最开始接触这个问题的解答是在libsvm本身的faq中：

Q: How do I get the distance between a point and the hyperplane?

The distance is |decision_value| / |w|. We have |w|^2 = w^Tw = alpha^T Q alpha = 2*(dual_obj + sum alpha_i). Thus in svm.cpp please find the place where we calculate the dual objective value (i.e., the subroutine Solve()) and add a statement to print w^Tw.

这里Q不知道是什么东西，不过至少可以知道

distance=|decision_value|/|w|=|decision_value|/sqr(2*(dual_obj+sum(αi))

但是，decision_value到底是神马！dual_obj和sum(αi)到底在哪儿！！初学者博主很想咆哮有木有！！！

那我们先来看看从libsvm的返回值和结果文件中都能得到什么东西。

首先，在训练模型的时候（就是用svm_train()这个函数的时候），能在终端得到这些返回值（我写python程序都是在终端运行）：

#iter：迭代次数

nu：选择的核函数类型的参数

obj：svm文件转换成的二次规划求解得到的最小值(这里混入了奇怪的东西是不是，没错！隐藏的这么深的就是obj，看看上面的距离公式)

rho：决策函数的偏置项b（决策函数f(x)=w^T*x+b）

nSV：标准支持向量的个数（0<αi<c）

nBSV：边界上的支持向量的个数（αi=c）

Total nSV：支持向量的总个数（二分类的话就等于nSV，多分类的话就是多个分界面上nSV的和）

我才不会告诉你刚才这些返回值的解读是来自这里：http://blog.163.com/shuangchenyue_8/blog/static/399543662010328101618513/

接下来再看训练模型所生成的model文件，其中的信息包括：

svm_type c_svc （svm的种类，取的默认值）

kernel_type rbf （核函数的类型，这里取的默认值）

gamma 0.0117647 （参数γ）

nr_class 2 （几分类，我这里做的是2分类）

total_sv 1684

rho -0.956377

label 0 1 （两种类别的标识）

nr_sv 1338 346 （所有支持向量中两种类别各自占了多少）

SV （哦哦，以下就是真正的支持向量啦，看看长什么样）

0.536449657223129 1:39 2:2 3:3 。。。。

0.3766245470441405 1:11 3:3 4:3 。。。。

数据格式都是前面一个数+空格+向量

前面这个数是什么捏？它就是我们苦苦寻找的α啊！！后面的向量不用多说，就是支持向量本尊喽，这里跟训练数据不同的是它的存储格式，稀疏向量存储的方式，把值为0的剔掉不记录，比如这里

1:11 3:3 4:3。。。。

其实是 1:11 2:0 3:3 4:3。。。。

到现在为止我们的obj和α都出现啦，现在就剩decision_value啦。其实这个时候我们就可以算出分类超平面的值了：

f(x)=w^T*x+b

w=∑αi*yi*αi 后面这个绿色标注的代表向量（这里的表达式参见这位写的svm资料，不错哦http://blog.csdn.net/v_july_v/article/details/7624837），这样α知道了，b知道了（就是上面的rho），分类超平面方程就得到了，根据空间中点到面的距离d=|f(x)|/|w|，把要考察的点x带入，是不是！！计算出来啦！！！

不过有时候想偷懒，不想自己计算|f(x)|怎么办？

没关系！libsvm在手，天下我有！（原谅博主疯疯癫癫，快半夜了有点兴奋）

来看看svm_predict()这个函数给我们返回了什么信息：

一般不是这样写的嘛 p_labels,p_acc,p_vals=svm_predict(......)

p_labels就是模型对这些测试数据预测的label

p_acc就是分类准确率啦，均方差啦还有squared correlation coefficient（相关系数平方？）

p_vals：在libsvm python interface 中这样说，a list of decision values or probability estimates(if '-b 1'is specified)这不就是我们要找的决策值吗！！%>_<%

好啦好啦，到此为止这个问题就算解决啦！

2 0