机器学习基石-07-4-Interpreting VC Dimension

来源:互联网 发布:hp1022n网络打印驱动 编辑:程序博客网 时间:2024/05/18 00:40

这节将会更加深入地理解VC维,penalty for model complexity:当VC维很大“power”的效果很好时,需要付出的“代价”。


上面的不等式的意义:“坏事情”发生的几率很小很小,也就是“好事情”发生的几率会很大。

发生“好事情”的概率就会小于等于1-σ.


上面Eout(g)夹在中间,有点像Eout(g)的置信区间。一般地,只考虑Eout(g)右边小于的部分,所以左边的部分写成了灰色。




当dvc增加时,会使得可以shatter的点就变多了,所以Ein(g)通常会变小。

当dvc减少时,Ein(g)会变大。

注意:powerful H not always good!!

因为powerful H只能保证Ein(g)很小,但是并不能保证Eout(g)也很小,因为会产生很大的model complexity。

很明显,并不是dvc越大越好,最佳的dvc在中间!


上面讲的是model complexity,那么对于sample complexity呢?样本复杂度


bound就是“坏事情”发生的最大几率,上面的例子中可以看到在inputs的N很大时会对bound产生很大的影响。

理论上和实际上的N要求差别很大,证明了looseness of VC bound。那么为什么VC bound可以这么宽松呢?


VC bound对于任意的情况都可以“容忍”!需要注意的是,上面的any data不是随便的数据,还是通过需要P(any distribution 的概率P)来选取,需要符合yn=f(xn)。


FUN TIME


通过A,B,C三种方式都可以有效地减少“坏事情”发生的概率。

阅读全文
0 0