机器学习基石-The VC Dimension

来源:互联网 发布:手机nba直播软件 编辑:程序博客网 时间:2024/05/16 18:49

大纲

这里写图片描述

Definition of VC dimension

1 回顾

首先,我们知道如果一个假设空间H有break point k,那么它的成长函数是有界的,它的上界称为Bound function。根据数学归纳法,Bound function也是有界的,且上界为Nk−1。从下面的表格可以看出,O(Nk1)比B(N,k)松弛很多。
这里写图片描述

根据上节课的推导,VC Bound可以转化为
这里写图片描述

  • 如果假设的成长函数mH(N存在break point,且数据集D充分大,那么根据VC Bound理论,Ein(g)Eout(g),即假设具有良好的泛化能力
  • 如果通过演算法从假设空间中选取一个g,使Ein(g)0,那么我们的算法真的可以学到东西

2 定义

  • 假设集H最大能shatter的数据个数
  • break point -1

3 举例

这里写图片描述

在数据量充分大的情况下,如果dVC是有限的,那么我们就可以说Ein(g)Eout(g)是PAC的,不用管是什么演算法,不用管数据的分布,不用管目标函数

4 2D的感知机

回顾一下之前学过的PLA算法,其实是分为两部分进行保证学习性的
这里写图片描述

  • 第一部分是通过VC Bound理论,保证在数据充分大的时候,Ein(g)Eout(g)
  • 第二部分是通过演算法PLA选取一个g,使Ein(g)0

那么就可以说明2D的感知机是可以学习的,那么多维的感知机呢?

5 感知机的VC Dimension

这里写图片描述

1维的感知机,我们知道dVC=2,2维的感知机,我们知道dVC=3,那么我们推测d维的感知机,他的dVC=d+1,我们分两步证明

  • 证明dVCd+1,通过证明存在一些d+1个输入,我们可以shatter.
  • 证明dVCd+1,通过证明对于所有的d+2个输入,我们都不可以shatter

证明过程参考课件,这里省略,我们可以得出结论

dVC=d+1

Physical intuition of VC Dimension

自由度

这里写图片描述
如上图所示,假设的参数产生了自由度,假设的数量和自由度是成正比的,自由度是可以调节的,可以通过控制假设的参数,一般在实践中,
这里写图片描述

一个假设的VC dimension约等于自由变量的数量。

M和dVC的关系

这里写图片描述
在数据量N一定的时候,
- 当dVC比较小时,Bad Sample发生的概率会小,Ein(g)Eout(g),但是限制了假设的数目,可能Ein(g)比较大
- 当dVC比较大时,Bad Sample发生的概率会大,Ein(g)Eout(g)相差比较大,不过假设的数目很多,Ein(g)0

Intepreting VC Dimension

Model Complexity

这里写图片描述

根据VC Bound 理论,Bad Sample发生的概率是δ,那么反过来,Good Sample发生的概率是1-δ

这里写图片描述

进一步有
这里写图片描述

我们习惯上把根号中的内容称为模型复杂度所带来的惩罚,用Ω表示,我们一般只关注右边的,那么有

这里写图片描述

通过分析

  • dVC增加的时候,Ein会减少,但是Ω会增加
  • dVC减少的时候,Ein会增加,但是Ω会减少
  • 如图所示,最好的dVC应该在中间

Sample Complexity

  • 理论上来说,一般控制N10000dVC,能取得比较好的泛化性能
  • 但在实践中,我们发现N10dVC,已经可以取得不错的效果

Looseness of VC Bound

从上面的数据我们可以知道,实际上VC Bound是很宽松的,为什么呢?
这里写图片描述

  • Hoeffding是比较宽松的,他是对于所有的数据分布,所有的目标函数

  • 我们是对于所有的数据可能情况,求最大的|H(x1,x2...xN)|,即mH(N)

  • 我们是求NdVC,即mH(N)的上界

  • 我们是考虑最坏的情况,就是让演算法在假设空间中自由的选择g

阅读全文
0 0
原创粉丝点击