机器学习基石 4.4 Connection to Real Learning

来源:互联网 发布:it培训计划 编辑:程序博客网 时间:2024/05/18 13:47

  • Multiple hh
  • Coin Game
  • BAD Sample and BAD Data
  • The Statistical Learning Flow
  • Fun Time

1. Multiple h

如果有一个h在手上的资料中没有犯错(全是绿色的弹珠),即Ein(hM)=0,能否说这个h就是完美的?
这里写图片描述

2. Coin Game

不能,比如150个人一起抛硬币,出现一个5次全部正面的概率大于99%,但此时不能说这个5次全部正面的硬币有魔法。
这里写图片描述

3. BAD Sample and BAD Data

坏的样本指的是那些EinEout相差很大的样本。

这里写图片描述

对于一个h来说,坏的数据集指的是那些Ein(h)Eout(h)相差很大的数据集。Hoeffding的理论告诉我们,这种情况发生的概率很小。

这里写图片描述

h有很多种选择时,坏的数据集指的是可能会在某个hEin(h)Eout(h)相差很大的数据集。

这里写图片描述

Hoeffding的理论只说明了对于一个h,一个数据集是坏的的概率很小。

这里写图片描述

当有Mh

这里写图片描述

这是Hoeffding在有限的bin上的版本。
同样不依赖于任何的Eout(hm),不需要知道Eout(hm)
所以Ein(g)=Eout(g)大概是对的,并且与使用的Learning Algorithm无关。

这里写图片描述

所以最有效的算法就如同前面讲到的PLA或者pocket一样,选择Ein(hm)最小的hm作为g。

这里写图片描述

4. The ‘Statistical’ Learning Flow

以上结论说明:如果是有限的并且N足够大,那么机器学习是可行的。

这里写图片描述

下一讲将讨论无限大(比如perceptrons)的情形。

5. Fun Time

根据公式,3是对的。
2是对的,只添加一个负号并不会改变数据的好坏,正因如此,4是对的,相当于根据公式得到的M=2时的情形,添加负号后坏的数据集与原来的坏的数据集是一样的。

这里写图片描述

原创粉丝点击