Machine Learning Foundation Lecture 04 Feasuibility of learning 学习笔记

来源:互联网 发布:java实现登陆注册 编辑:程序博客网 时间:2024/06/06 00:06

        学习笔记4,机器学习的可行性


        知识点1:有时候机器学习是做不到的。

        为什么呢?请看如下的例子:图1的3张图片的y=-1,图2的3张图片y=+1,请问图3这张图片y=?

   图1

  图2

图3 

        如果是从对称性的角度来说图3中图片的y=+1,如果是从左上角是否是黑色块的角度来说图3中图片的y=-1。好像Learning是不可行的。

        我们想要的事情是在资料以外的部分g能不能和f做的一样好,但是这个例子好像告诉我们”我们想要的事情是做不到的“,在机器学习中这类研究叫做No Free Lunch(天下没有白吃的午餐)。如果我们给机器资料,机器去学资料,到底资料以外发生什么事,通常我们是没有办法有任何的结论的(即g在我们所看过的资料以外对f好或者不好)。如果需要有结论,就要加上一些假设。


        知识点2:Hoeffding不等式

        从图4的例子中来理解什么是Hoeffding不等式。

        图4

        代表瓶子中orange marble占整个瓶子的比例,未知,也不需要知道; 代表抽样的样本中orange marble占样本的比例,已知;

        公式为,表示之间的误差超过的概率是有上限的。我们可以说如果样本的数量N越大(则上限越小),那=大概差不多是正确的(probably approximately correct PAC),换句话说就是大概能够通过已知的来推理出未知的


        知识点3:Probability与Learning的关系 BinLearning未知的orange marble的Probability,用来表示fixed hypothesis h(x) =? target f(x)marble Binx Xorgane marbleh is wrong h(x) f(x) (有一个固定的h)green marbleh is right h(x)= f(x) (有一个固定的h)
来自于Bin中抽取的Sample,Size用N来表示Check h on D={(,)}

        由此可以得到:如果我们的资料量足够的大(large N),并且是独立取样的,我们大概可以说:“从资料中得到的h()的比例,大概可以推导出h(x)f(x)的比例。”

        图5

        (out of sample error)表示h和f在整个bin中是否一样,相当于(未知);(in sample error)表示在资料上h和y是否一样,相当于(已知);将代入Hoeffding不等式,得到如下公式:

        ,Hoeffding告诉我们这2个东西()大概差不多。

        如果 and很小也很小资料继续从P中产生出来(就是以P的形式的概率分布),那hf(h和f很接近)


        知识点4:Real Learning

        从上述的内容来看,我们根本就没有使用Machine learning alogrithmn,因为h是固定的,没有从hypothesis set中选择,而真正的机器学习需要从hypothesis set中选择h。

图六

        假设我们有10个bin,从中抽取marble,假使有一个bin抽出的全部是green marble,就是=0,我们是否要选择这个bin?。对应就是我们有10个hypothesis,其中有1个hypothesis在所对应的资料上全部正确,我们是否要选择这个hypothesis。

        Hoeffding不等式告诉我们的是取样出来的和bin中的大部分是一样的,只有小部分是不好的,所谓不好是取样出来的和bin中的差的很远,就是差的很远。但是在有了选择的时候,这些选择会恶化不好的情形。

        注意资料好和不好,就是指是不是差了很远

        图七针对一个hypothesis表示了Hoeffding不等式。

图七

        图八出现了多个hypothesis,每一行(每一个hypothesis)告诉我们:“Hoeffding说了,不好的机率很小”,但是我们现在需要的是“演算法需要能安心做选择”,如果资料是D1,演算法会在,, 上踩到雷。只有D1126是好的资料。

图八

        我们现在需要知道的是“我们演算法在自由自在做选择的情况下,发生不好的机率是多少?(就是图八中?处)”

        推导公式如下:

        我们可以得到结论,在H(hypothesis set) M有限 & 资料的数量N足够大的情况下,取一个g,他的最小,从某种角度说他的也是最小的。



0 0