svm、经验风险最小化、vc维

来源：互联网发布：爱知产业大学世界排名编辑：程序博客网时间：2024/06/04 22:46

“支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小原理基础上”

结构化风险

结构化风险 = 经验风险 + 置信风险

经验风险 = 分类器在给定样本上的误差

置信风险 = 分类器在未知文本上分类的结果的误差

置信风险因素：

样本数量，给定的样本数量越大，学习结果越有可能正确，此时置信风险越小；
分类函数的VC维，显然VC维越大，推广能力越差，置信风险会变大。

提高样本数量，降低VC维，降低置信风险。

以前机器学习的目标是降低经验风险，要降低经验风险，就要提高分类函数的复杂度，导致VC维很高，VC维高，置信风险就高，所以，结构风险也高。---- 这是SVM比其他机器学习具有优势的地方。

svm能达到降低vc维，最主要那个是核函数的引入。

前面这部分知识都是在学习svm的时候摘抄别人的博客，当时对vc维就不是很理解，看了很多遍都是云里雾里的。但在后来的学习中发现这个概率常常出现，到时很多算法都不能有一部分无法正确理解，今天鼓起勇气再次学习一下vc维概念，整理如下：

例子：一个线性二分类函数能打散一个只包含三个元素的的集合所以称线性二分类函数的vc维为3

抽象：一个函数集能后打撒一个包含h个元素的集合称该函数集的vc维为h

说到这儿大家可能对打散这个定理不是很理解，那还是以二分类函数为例

假设有一个包含三个元素的集合，这三个元素应该存在2^3即8种形式分开，具体情况如下：

而线性二分类函数，就能实现这个要求，所以说线性二分类函数的VC维为3。

同样对于具有h个元素的集合，如果一个函数集能够实现2^h种形式分开，我们称这个函数集的vc维为h

若对任意数目的样本都有函数能将它们打散.则函数集的VC维是无穷大。即该函数集能够打散包含任意个元素的集合。

VC维定义应用

研究人员通过分析得出结论：经验风险最小化学习过程一致的必要条件是函数集的VC维有限，且这时的收敛速度是最快的。

个人理解，如果一个vc维无穷大，即该函数集能够打散包含任意个元素的集合。那么这个函数必定很复杂，才能满足这个条件，如果一个函数过于复杂，这个函数的泛化能力将下降，训练的经验风险将增大，收敛的速度也会减慢。