机器学习基石-07-4-Interpreting VC Dimension

来源：互联网发布：hp1022n网络打印驱动编辑：程序博客网时间：2024/05/18 00:40

这节将会更加深入地理解VC维，penalty for model complexity：当VC维很大“power”的效果很好时，需要付出的“代价”。

上面的不等式的意义：“坏事情”发生的几率很小很小，也就是“好事情”发生的几率会很大。

发生“好事情”的概率就会小于等于1-σ.

上面Eout(g)夹在中间，有点像Eout(g)的置信区间。一般地，只考虑Eout(g)右边小于的部分，所以左边的部分写成了灰色。

当dvc增加时，会使得可以shatter的点就变多了，所以Ein(g)通常会变小。

当dvc减少时，Ein(g)会变大。

注意：powerful H not always good！！

因为powerful H只能保证Ein(g)很小，但是并不能保证Eout(g)也很小，因为会产生很大的model complexity。

很明显，并不是dvc越大越好，最佳的dvc在中间！

上面讲的是model complexity，那么对于sample complexity呢？样本复杂度

bound就是“坏事情”发生的最大几率，上面的例子中可以看到在inputs的N很大时会对bound产生很大的影响。

理论上和实际上的N要求差别很大，证明了looseness of VC bound。那么为什么VC bound可以这么宽松呢？

VC bound对于任意的情况都可以“容忍”！需要注意的是，上面的any data不是随便的数据，还是通过需要P（any distribution 的概率P）来选取，需要符合yn=f(xn)。

FUN TIME

通过A,B,C三种方式都可以有效地减少“坏事情”发生的概率。

阅读全文

0 0