机器学习基石-05-1-Recap and Preview

来源:互联网 发布:淘宝优惠券 文胸 编辑:程序博客网 时间:2024/06/06 00:30

两个中心问题two central questions


可以将learning拆成两个问题:

1.Ein(g)和Eout(g)是否很接近;

2.怎样才能使得Ein(g)变得越小越好?


那么H假定集的大小M对于上面的两个问题有什么影响呢?


bad things就是Ein(g)和Eout(g)差别特别大far away;

当M很小时,就说明发生坏事情的概率很小;但是此时可选择的H比较少。

当M很大时,就说明发生坏事情的概率很大;此时可选择的H比较多。

所以M的选择是很重要的!!

那么当M无穷大时,就无法满足uniform bound的不等式



为什么当M无穷大时就无法进行呢?因为此时的B1,B2,B3……有很大程度的重叠overlapping,overlapping for similar hypotheses h1和h2很接近。所以使用union bound就会高估了overestimating,上面的不等式并没有考虑到重叠的影响。



所以要想方法找出这些“坏事情”的重叠部分:第一步,把无限多个H分成有限的类,分类好以后的类相似。

那么要怎样把它分成一类一类的呢?How many lines are there?

1.对于input vector x来说,只有两条线。其中一条线把x1划分到圆圈,另一条线把x1划分到叉叉。


2.那么对于两个x1和x2呢?


3.那么当inputs为x1,x2,x3时是怎样的?



当有三个输入变量时,最多有8条线。当时当x1,x2,x3在一条直线上时,就有两条线是无法实现的!所以这种情侣下只有6条线,所以当有三个输入变量时,最多最多只有8条。


4.那么输入变量有四个x1,x2,x3,x4时是怎样的?


右边的图示对应另外8个分割的情况,有两个情况是无法实现的,所以最多最多只有16-2=14条线。


Effective Number of Lines


effective number of lines就是“有效的线”的最大值。

补充:当有5个输入变量x1,x2,x3,x4,x5时,effective number of lines=22

希望可以找到一个东西来代替M,使他变成有限的。

上面的所有操作就是想用Effective(N)来代替M!!但是具体是否可行还需要后续的证明。



原创粉丝点击