Learning from data: Theory of Generalization

来源:互联网 发布:淘宝的数据魔方 编辑:程序博客网 时间:2024/05/16 06:10

Today's lecture is the most theoretical of the entire course. So fasten your seatbelts and let's start. Bite the bullet.

PDF下载地址:http://pan.baidu.com/s/19ERsM 

给豆瓣大神跪了。



书里只有公开课的前几章,而且不系统,难怪大神们吐槽。

1. Proof the m(H) is polynomial


现在我们来求解B(N,k)的值,总体思路是要采用归纳法,建立B(N,K)与B(N-1,k)或者B(N-1,K-1)之间的关系(为什么没有B(N,k-1),估计也是反复推倒求解的吧,不像现在的学习),总之,要向着更小的方向进行,归纳至我们可以用枚举的方法来计算为止。

先来考虑B(N,k)的构成方式,以最后一个点的不同情况,将B(N,k)分成两种来考虑,在满足break point =k 的情况下,第一种是在前N-1个点确定以后,第N个点的情况是唯一确定的;第二种是在前N-1个点确定的情况下,第N个点可正可负。

以B(3,2)来讲,隔离x3,第一组和第二组即属于第二种情况,而第三组和第四组则属于第一种情况(实际上,我们在枚举的时候是现有第二种情况,后有第一种情况的)。


第一种情况的数目记为alpha,在第二种情况中,正负对称,记为2beta.

则有下面的图示:



下面考虑alpha 和 beta的上界:


先分析alpha和beta,如果去掉最后一列,两个beta实际上是一一对应的,alpha和beta之间是完全不重复的,所以对于从x1,x2....到xn满足断点为k,则任取n-1列同样满足断点为k, 即有 上图的不等式。

下面给出beta的范围:


反证法:假如beta断点大于k-1,那么N-1个点的假设个数应该大于2^(k-1),再加上最后一列的话,那这N个点的假设个数就大于2^k个,与B(N,K)矛盾。得证。

总结一下:


计算几个例子感受下:


可以利用杨辉三角算一下。

事实上,数学中早就有解析解。



分析一下这个组合数:





整个证明思路都是归纳法,给出的界限也应该是归纳出来,并不是计算一个精确的值,而是给出一个Bound,这个Bound是多项式形式的,然后再证明。


2. Proof the m(H) can replace M

视频里面并没有给出证明,贴一下书里的证明吧







Reference:

1.网易公开课

2.Learning from data 

0 0