Machine Learning Foundation Lecture 04 Feasuibility of learning 学习笔记

来源：互联网发布：java实现登陆注册编辑：程序博客网时间：2024/06/06 00:06

学习笔记4，机器学习的可行性

知识点1：有时候机器学习是做不到的。

为什么呢？请看如下的例子：图1的3张图片的y=-1，图2的3张图片y=+1，请问图3这张图片y=?

图1

图2

图3

如果是从对称性的角度来说图3中图片的y=+1，如果是从左上角是否是黑色块的角度来说图3中图片的y=-1。好像Learning是不可行的。

我们想要的事情是在资料以外的部分g能不能和f做的一样好，但是这个例子好像告诉我们”我们想要的事情是做不到的“，在机器学习中这类研究叫做No Free Lunch（天下没有白吃的午餐）。如果我们给机器资料，机器去学资料，到底资料以外发生什么事，通常我们是没有办法有任何的结论的（即g在我们所看过的资料以外对f好或者不好）。如果需要有结论，就要加上一些假设。

知识点2：Hoeffding不等式

从图4的例子中来理解什么是Hoeffding不等式。

图4

$\mu$ 代表瓶子中orange marble占整个瓶子的比例，未知，也不需要知道； $\nu$ 代表抽样的样本中orange marble占样本的比例，已知；

公式为，表示 $\mu$ 和 $\nu$ 之间的误差超过 $\epsilon$ 的概率是有上限的。我们可以说如果样本的数量N越大（则上限越小），那 $\mu$ = $\nu$ 大概差不多是正确的（probably approximately correct PAC），换句话说就是大概能够通过已知的 $\mu$ 来推理出未知的 $\nu$ 。

知识点3：Probability与Learning的关系 BinLearning未知的orange marble的Probability，用 $\mu$ 来表示fixed hypothesis h(x) =? target f(x)marble $\in$ Binx $\in$ Xorgane marbleh is wrong $\Leftrightarrow$ h(x) $\neq$ f(x) (有一个固定的h)green marbleh is right $\Leftrightarrow$ h(x)= f(x) (有一个固定的h)
来自于Bin中抽取的Sample，Size用N来表示Check h on D={( ${x}_{n}$ , $y_{n}$ )}

由此可以得到：如果我们的资料量足够的大（large N），并且 ${x}_{n}$ 是独立取样的，我们大概可以说：“从资料中得到的h( ${x}_{n}$ ) $\neq$ $y_{n}$ 的比例，大概可以推导出h(x) $\neq$ f(x)的比例。”

图5

$E_{out}$ （out of sample error）表示h和f在整个bin中是否一样，相当于 $\mu$ （未知）； $E_{in}$ （in sample error）表示在资料上h和y是否一样，相当于 $\nu$ （已知）；将 $E_{out}$ 和 $E_{in}$ 代入Hoeffding不等式，得到如下公式：

，Hoeffding告诉我们这2个东西（ $E_{out}$ ， $E_{in}$ ）大概差不多。

如果 $E_{out}$ $\approx$ $E_{in}$ and $E_{in}$ 很小 $\Rightarrow$ $E_{in}$ 也很小 $\Rightarrow$ 资料继续从P中产生出来（就是以P的形式的概率分布），那h $\approx$ f（h和f很接近）。

知识点4：Real Learning

从上述的内容来看，我们根本就没有使用Machine learning alogrithmn，因为h是固定的，没有从hypothesis set中选择，而真正的机器学习需要从hypothesis set中选择h。

图六

假设我们有10个bin，从中抽取marble，假使有一个bin抽出的全部是green marble，就是 $E_{in}$ =0，我们是否要选择这个bin？。对应就是我们有10个hypothesis，其中有1个hypothesis在所对应的资料上全部正确，我们是否要选择这个hypothesis。

Hoeffding不等式告诉我们的是取样出来的和bin中的大部分是一样的，只有小部分是不好的，所谓不好是取样出来的和bin中的差的很远，就是 $\mu$ 和 $\nu$ 差的很远。但是在有了选择的时候，这些选择会恶化不好的情形。

注意：资料好和不好，就是指 $E_{in}$ 和 $E_{out}$ 是不是差了很远。

图七针对一个hypothesis表示了Hoeffding不等式。

图七

图八出现了多个hypothesis，每一行（每一个hypothesis）告诉我们：“Hoeffding说了，不好的机率很小”，但是我们现在需要的是“演算法需要能安心做选择”，如果资料是D1，演算法会在 $h_{1}$ , $h_{3}$ , $h_{m}$ 上踩到雷。只有D1126是好的资料。

图八

我们现在需要知道的是“我们演算法在自由自在做选择的情况下，发生不好的机率是多少？（就是图八中？处）”

推导公式如下：

我们可以得到结论，在H(hypothesis set) M有限 & 资料的数量N足够大的情况下，取一个g，他的 $E_{in}$ 最小，从某种角度说他的 $E_{out}$ 也是最小的。

0 0