机器学习基础(林軒田)笔记之四

来源:互联网 发布:淘宝 手电大家谈 编辑:程序博客网 时间:2024/06/16 21:48

机器学习基础(林軒田)笔记之四

Feasibility of Learning

本堂课主要讲机器学习的可能性。

一.Learning is Impossible?

天下没有免费的午餐(no free lunch)规则:
用任何训练数据及得到的g,对于测试数据集都可能是无效的,即假设g和目标函数f可能相差很远,也就是说机器学习在某种意义上可能是不可能的。
下面是两个例子:



二.Probability to the Rescue

针对第一节中提出的机器学习在某种意义上是无效的一种补救措施。
    通过罐子中取弹珠的问题引出霍夫丁不等式(Hoeffding’s Inequality) :

霍夫丁不等式中P为概率符,v-u为两概率的接近程序,epsilon为接近程度的下限,N表示样本数量,不等式左边表示u与v之间相差大于某值的概率。随着样本数量N的增加,u与v会越来越接近,epsilon越大,概率越低,即该结论近似正确(PAC)。

三.Connection of Learning

这一节课将上节罐子中取球的例子推广到机器学习上。
下面通过一个类比来说明问题:

1.将训练样本集类比为随机抽取罐子中弹珠的样本;
2.固定一个假设h(x),在训练集上满足的向量x个数占整个整个样本集的比例类比为橙色弹珠在随机抽取的弹珠中的比例;
因此使用上一节中的PAC(可能近似正确)理论,在整个输入空间中该固定的假设函数h(x)和目标函数f(x)不相等的输入量占整个输入控件的数量的比例(概率)u与上述随机样本中两个函数不相等的样本占抽样样本数的比例v相同,这也遵循PAC理论。机器学习的过程如下PPT所示:


其中实线表示固定一个假设h(x),在训练集上满足的向量x个数占整个整个样本集的比例v的求取,虚线表示在整个输入空间中该固定的假设函数h(x)和目标函数f(x)不相等的输入量占整个输入控件的数量的比例(概率)u的求取,最终得出二者近似相等。
一个疑问:我们所得到的固定假设h(x)真的就是我们所想要的目标函数吗?

很显然,在整个输入空间上与目标函数f(x)最接近的h(x)才是我们想要的。
对于一个固定的假设h(x), 我们需要验证它的错误率,然后根据验证的结果选择最好的h(x)。



四.Connection to Real Learning

上一讲中h(x)的求取过程准确的讲并不算是一个学习的过程,而更像是一个确定的过程,由一个固定的假设h(x),判断该假设是否满足上图中箭头所指的条件。本讲主要讲PAC理论联系到实际的学习中。
上节课的结论寻找的是一个使得很小的假设函数h(x),这样就可以使得h(x)和目标函数f(x)在整个输入空间中

很接近。

以丢硬币的例子为例:

由投硬币的例子引出,按照上讲中找使得很小的h(x)会不准确,由错误的样本导致。


上图中霍夫丁理论是指P(BAD)很小。单一假设函数中不好的D出现的概率其实并不高,但是在做选择时,面对

的是整个假设集中无数的假设,因此,不好的D的计算要有所改变。

假设集有限的情况:


霍夫丁理论是指,针对每一个假设,不好的D出现的可能性不高,但是正对同一数据集,对不同的假设来说,结

果就不一样。
这其中包含了M个假设,而不好的D不是由单一假设就确定的,而是只要有一个假设在此抽样D上表现不好则该抽样被标记为坏的,因此霍夫丁不等式如下:

所以,当假设空间有限时(大小为M)时, 当N 足够大,发生BAD sample 的概率非常小。此时学习是有效的。


0 0