对SVM的认识

来源:互联网 发布:网络流行文化的研究 编辑:程序博客网 时间:2024/06/13 16:07

初次是根据“支持向量机通俗导论(理解SVM的三层境界)”对SVM有了简单的了解。总的来说其主要的思想可以概括为以下两点(也是别人的总结)

1、SVM是对二分类问题在线性可分的情况下提出的,当样本线性不可分时,它通过非线性的映射算法,将在低维空间线性不可分的样本映射到高维的特征空间使其线性可分,从而使得对非线性可分样本进行线性分类。

2、SVM是建立在统计学习理论的 VC理论和结构风险最小化原理基础上的,在保证样本分类精度的前提下,建立最优的分割超平面,使得学习器有较好的全局性和推广性。

第一个能在“支持向量机通俗导论”中找到答案,但第二个就有点难理解(其实自己就理解一丢丢)。

统计学习理论:所谓的统计学习理论是研究统计估计和预测的理论,它在理论上系统的研究了结构风险的问题,即在经验风险最小化(保证训练样本的分类准确率)原则成立、有限样本下的经验风险(训练样本)与致信风险(测试样本)的关系。

VC理论:为了研究学习过程的一致收敛的速度和推广性,统计学习理论定义了一系列有关于函数集学习性能的指标,其中最重要的是VC维(Vapnik-Chervonenkis Dimesion) 。模式识别方法中对VC维的定义是直观的:对一个指示函数集,如果存在h个样本能够被函数集中的函数按所有的 种形式分开,则称函数集能够把h个样本打散;函数集的VC维就是它能打散的最大样本数目h。若对任意数目的样本都有函数能将它们打散,则函数集的VC维就是无穷大的。函数集的VC维反映了其学习的能力,VC维越大,则该函数集的学习能力越大,如一个三角函数的函数集,能将任意组合的样本进行分类,其VC维是无穷大的,相对的在n维空间下线性函数的VC维是n+1。学习能力越强也就意味着学习机器的复杂度越高,对新样本分类的置信度就越低,从而使实际风险较高。从而机器学习中在保证经验风险最小的前提下,应该尽量降低函数集的VC维,才能使实际风险较小,从而取得较好的推广性。(在线性可分的情况下容易体现这一点,超平面在保持样本线性可分的情况下(经验风险小),使两个支持向量的几何间距尽量大(实际风险小))。

多分类问题的解决方法:构造SVM多类分类器 的方法主要有两类:一类是直接法,直接在目标函数上进行修改,将多个分类面的参数求解合并到一个最优化问题中,通过求解该最优化问题“一次性”实现多类分类,但其计算复杂度比较高,训练时间长,适合用于小规模问题。另一类是间接法,主要是通过组合多个二分类器来实现多分类器的构造,如在有 10 类,那就要设计 10 个二类分类器,比如分类器 0 将 0与  数字分开,分类器1将1与 数字分开,依次类推。在林智仁先生的 svm工具箱,是对任意两类样本建立了一个SVM,因此k个类别的样本就需要设计 k(k-1)/2 个SVM。当对一个未知样本进行分类时,将该样本的特征向量放到这  k(k-1)/2 个SVM中进行决策并投票,最后得票最多的类别即为该未知样本的类别。

参数选择:在参数选择中,主要是核函数的选择(选择核函数后,核函数会带有参数,该参数也要决定)和代价参数C(见支持向量机通俗导论),暂时就会一种方法,穷举法(也就是分别给核函数的参数和代价参数一组值,看看分类效果,决定选用那个)。



0 0
原创粉丝点击