机器学习基石 4.4 Connection to Real Learning

来源：互联网发布：it培训计划编辑：程序博客网时间：2024/05/18 13:47

1. Multiple h

如果有一个h在手上的资料中没有犯错（全是绿色的弹珠），即Ein(hM)=0，能否说这个h就是完美的？
这里写图片描述

不能，比如150个人一起抛硬币，出现一个5次全部正面的概率大于99%，但此时不能说这个5次全部正面的硬币有魔法。
这里写图片描述

坏的样本指的是那些Ein与Eout相差很大的样本。

这里写图片描述

对于一个h来说，坏的数据集指的是那些Ein(h)与Eout(h)相差很大的数据集。Hoeffding的理论告诉我们，这种情况发生的概率很小。

这里写图片描述

当h有很多种选择时，坏的数据集指的是可能会在某个h上Ein(h)与Eout(h)相差很大的数据集。

这里写图片描述

Hoeffding的理论只说明了对于一个h，一个数据集是坏的的概率很小。

这里写图片描述

当有M个h时

这里写图片描述

这是Hoeffding在有限的bin上的版本。
同样不依赖于任何的Eout(hm)，不需要知道Eout(hm)。
所以Ein(g)=Eout(g)大概是对的，并且与使用的Learning Algorithm无关。

这里写图片描述

所以最有效的算法就如同前面讲到的PLA或者pocket一样，选择Ein(hm)最小的hm作为g。

这里写图片描述

以上结论说明：如果是有限的并且N足够大，那么机器学习是可行的。

这里写图片描述

下一讲将讨论无限大（比如perceptrons）的情形。

根据公式，3是对的。
2是对的，只添加一个负号并不会改变数据的好坏，正因如此，4是对的，相当于根据公式得到的M=2时的情形，添加负号后坏的数据集与原来的坏的数据集是一样的。

这里写图片描述

阅读全文

0 0