机器学习基石 4-2 Probability to the Rescue

来源:互联网 发布:莫里斯迈斯纳 知乎 编辑:程序博客网 时间:2024/06/05 19:18

上节介绍了机器学习在现实情况中所不能够解决的一些情况,本节主要论述了learning方法在一定的情况下能够对outline of data set的data进行预测的可行性。


问题:使用ML方法得出的g能否在out of data set的data上表现与f一致?

举例:罐子里的弹珠


想象一个有很多很多个弹珠的罐子,里边的弹珠有绿色的和橙色的,我们的任务是要统计橙色弹珠在所有弹珠中所占的比例。


解决这个问题一个最直接的想法是直接一个一个去统计,但是这个方法显然是不现实的。


我们可以考虑从罐子中随机地抽取一部分sample,通过统计这部分sample的橙色弹珠的比例来预测罐子中橙色弹珠在所有弹珠中的比例。假设在该sample中橙色弹珠的比例为v,罐子中橙色弹珠的比例为μ,我们希望能够证明v≈μ。

假设这个罐子里橙色弹珠的比例为0.6。想象这种情况:如果我们运气好些,取到的sample中正好橙色弹珠的比例为0.6,那么就正好可以说明v≈μ成立。如果我们的运气实在太差,取到的全部都是绿色的弹珠,那么这个时候我们得到的v就是0,这显然是不合常理的。但是从统计学角度来说如果我们取的sample的随机程度很高的话,v的范围是会在μ周围上下波动的。

但是现在又有一个问题,我们如何能够保证取到的随机度很高呢?这个问题没有一个标准,因此我们引进一个能够改进这个问题的一个工具,这就是Hoeffding's Inequality(霍夫丁不等式):


该不等式定义了一个误差范围ξ,表示v与μ的误差程度。从这个不等式的表示形式可以看出,这个ξ的值越大,也就是v与μ的误差越大,这种情况出现的机会也就越小。这也就验证了上面的那句话:v与μ的误差值在很大情况下都会在一个小范围内波动。




在这个不等式的右边,N表示的是sample的size,这是一个独立影响这个不等式的变量。如果这个N越大,那么右边的式子的值越小,则左边的式子的值也会变小。也就是说,N越大,v和μ的误差值发生的机会越小。这样,我们就找到了一个替代提高sample随机程度的方法:提高N值。想象一种极端的情况,这个N足够足够大,大到跟罐子中的弹珠数量一致,那么此时的sample就是全部弹珠,这个时候v是肯定等于μ的,也就是说,v和μ产生误差的概率为0,符合上述例子的P趋近于无限接近于0的情况。

根据这个不等式,我们可以说“v=μ”这个式子是PAC的。只要取得sample的规模足够大,那么我们可以用v来对μ进行预测。


2 0
原创粉丝点击