浅谈SVM（一）

来源：互联网发布：ecs绑定域名编辑：程序博客网时间：2024/06/07 21:58

一、SVM简介：

专业介绍：

（1）支持向量机（Support Vector Machine）是Cortes和Vapnik于1995年首先提出的，它在解决小样本、非线性及高维模式识别中表现出许多特有的优势，并能够推广应用到函数拟合等其它机器学习问题中。

（2）支持向量机方法是建立在统计学习理论的VC维理论和结构风险最小原理基础上的，根据有限的样本信息在模型的复杂性（即对特定训练样本的学习精度）和学习能力（即无错误地识别任意样本的能力）之间寻求最佳折中，以期获得最好的推广能力（或称泛化能力）。

解释：

VC维是对函数类的一种度量，可以简单地理解为问题的复杂程度，VC维越高，一个问题就越复杂。正是因为SVM关注的是VC维，后面我们可以看到，SVM解决问题的时候，和样本的维数是无关的（甚至样本是上万维的都可以，这使得SVM很适合用来解决分类问题，当然，有这样的能力也因为引入了核函数）。
机器学习本质上就是一种对问题真实模型的逼近。而我们所求出的解与真实解之间的误差，就叫做风险（更严格地说，误差的积累叫做风险），真实误差无从得知，但我们可以用某些可以掌握的量来逼近它。最直观的想法就是使用分类器在样本数据上的分类结果与真实结果（因为样本是已经标注过的数据，是准确的数据）之间的差值来表示。这个差值就叫做经验风险。以前的机器学习方法都把经验风险最小化作为努力的目标，但后来发现很多分类函数能够在样本集上轻易达到100%的正确率，在真实分类时却一塌糊涂（即所谓的推广能力差，或者说是泛化能力差）。此时的情况便是选择了一个足够复杂的分类函数能够精确地记住每一个样本，但对样本之外的数据一律分类错误。（经验风险无法逼近真实风险：原因是样本不够大，但是样本相对于现实世界来说只能是九牛一毛）。
统计学习因此而引入了泛化误差界的概念，就是指真实风险应该由两部分内容刻画：一是经验风险，代表了分类器在给定样本上的误差；二是置信风险，代表了我们在多大程度上可以信任分类器在未知样本上的分类结果。很显然，第二部分是没办法精确计算的，因此只能给出一个估计的区间，也使得整个误差只能计算上界，而无法计算准确的值（所以叫泛化误差界，而不叫泛化误差）。统计学习认为置信风险与两个量有关：一是样本数量，显然给定的样本数量越大，我们的学习结果越有可能正确，此时置信风险越小；二是分类函数的VC维，显然VC维越大，推广能力越差，置信风险会变大。统计学习的目标从经验风险最小化变为了寻求经验风险与置信风险的和最小，即结构风险最小。

通俗介绍：支持向量机是一种有监督学习算法（可能也是目前最好的有监督学习算法），更准确地讲，它是一种二类分类模型，其基本模型定义为特征空间上的间隔最大的线性分类器，其学习策略便是间隔最大化，最终可转化为一个凸二次规划问题的求解。

0 0