libsvm 参数以及计算测试点相似度

来源:互联网 发布:淘宝保证金解冻步骤 编辑:程序博客网 时间:2024/06/10 06:08

最近一个图像识别项目里需要对分类的结果进行打分,因为使用的是libsvm3.12,一开始决定直接将svm_predict_values函数的dec_values作为评分返回,后来研究了之后才觉得里面有的东西还挺有趣。

    首先介绍一下SVM中的多分类方法。目前SVM多分类流行的策略有one-against-all以及one-against-one两种,libsvm中的多分类是采用的one-against-one策略,其他有一些开源库如SVM-Light采用one-against-all。对于N类的数据,one-against-all建立N个分类器,但有一些缺点,如:数据集偏斜、分类重叠、不可分现象等(参见:http://www.blogjava.net/zhenandaci/archive/2009/03/26/262113.html);one-against-one建立N*(N-1)/2个分类器,每个分类器对样本进行投票,票数最多对应的类别作为识别结果。在分类器里用来决定投票给谁的依据,就是decision value,也就是libsvm中的dec_values。

    以下考虑线性核的情况。

    直观上以为decision value就是样本点到最优超平面的距离,其实并不是,分析如下:

    假设计算出的分类决策面能将两类(P, N)完全分开,则有: ,其中w理解为最优超平面的法向量,计算式为αj对应于libsvm中svm_model结构体的sv_coef

    分类间隔为。所以支撑向量到最优超平面的距离为。也就是说,对于其他样本点,decision value为,到最优超平面的距离为,支撑向量就是的情况。libsvm里只进行decision value的计算,没有除去||ω||,想要进一步计算超平面距离,参考:http://www.csie.ntu.edu.tw/~cjlin/libsvm/faq.html#f4151 。

    另外decision value也跟概率无关(用在回归时确实表示概率,但在分类时则不是)。根据我看到的说法,由decision value的计算式,它的取值范围应该是在实数域上的(这是在一篇外国的硕士论文上看到的说法,见Andreas Vlachos的《Active Learning with Support Vector Machines》,2004)。不过我觉得这样说好像也不对,假设我们对样本特征数据做了scale,那么所有的样本点就被限定在一个有限空间里,既然最优超平面也是在这个空间里确定的,那么只要所有的测试样本点做了scale处理,到最优超平面的距离肯定是有上界的。具体这个上界怎么去推导,暂时还不懂。

    多分类时one-against-one的策略里有一点小问题就是,各个二分类器的计算得出的decision value其实是没有可比性的,而one-against-all没有这个问题。为什么这么说呢?这是因为:1)one-against-all各个分类器训练参数跟数据集是一样的,只不过是label做了改变。所以比较不同分类器的decision value是合法的;2)one-against-one各个分类器的训练时,用的是不同数据集,因此分类器之间的decision value不能直接比较。按照我的理解,前者是在同一个空间里比较,后者就不是了。

    按照在国内外论坛上别人的说法,甚至不能给decision value附件任何含义,除了线性核的SVM里可以用decision value进一步计算距离(参见http://stackoverflow.com/questions/11030253/decision-values-in-libsvm ,不过我觉得老外也未必都是对的)。稳妥的说法就是decision value可以用来作为分类结果置信度的评价。

    回到对分类结果进行打分的问题上来,在网上查找资料时,看到有人也做了类似的工作,见:http://blog.csdn.net/zhzhl202/article/details/7438313 。他的方法是:,其中k为所有支持判别类得个数,n为所有类别个数,si 为所有支持判别类的分数。我觉得这种方法兼顾了投票数与decision value两方面的信息,比直接累加dec_values然后取平均肯定要好,但是公式的由来,似乎又没有坚实的理论依据。不过没有其他好方法之前,我项目里暂时就这么用了。

补充:

这个函数是libsvm库中比较新的函数,用于对现有nr_class个类做出概率估计(我理解就是属于这个类别的概率是多少,从数学角度是样本与分类面的距离?)

1)进入到svm_predict_probability函数里面,注意到里面有一个选择语句,svm的类型要选择C_SVC或NU_SVC,并且probA和probB的指针不能为空。svm类型很好搞定,但是对于probA和probB我之前并没有见到过,他们是model中的参数,当我们不涉及到概率是model中没有这两个值。后来经考察资料,当options中的-b参数设置为1时,才会涉及到probA和probB。所以要想求概率估计,第一点要注意的是-b参数要设为1.

2)svm_predict_probability函数与svm_predict函数在接口上只有第三个参数prob_estimates不同,其余两个都相同,所以这里只说明第三个参数的作用。prob_estimates里实际上存放的就是估计出的概率,比如说m分类问题,那prob_estimates就是一个1*m列的矩阵,没列代表属于相对类别的概率。这个相对类别是与svm输出结构体中的Lable相对应的!

3)说完参数就剩下返回值啦,比较简单,返回的就是最大概率对应的类别标签。如果二分类问题那就是1或-1.

最后总结一下,如果熟悉svm_predict的话,那么只有二点不同,一是-b参数要设成1,二是函数接口多了个概率矩阵,其他的只要把参数传进去就可以了。以上只是在应用这个函数过程中的体会,如有不对请指正。

0 0
原创粉丝点击