机器学习基石-08-1-Noise and Probabilistic Target

来源:互联网 发布:超星视频跳过软件 编辑:程序博客网 时间:2024/06/06 01:04

Noise and Probabilistic

上节课的内容回归一下


接下来将会考虑存在噪声noise的情况下VC bound是否仍然有效。


noise可能的几种情况:

1.可以发放信用卡的客户被错误“标记”成不可以发放的;

2.inputs完全相同的时候,有的客户发放了信用卡有的却没有发放;

3.客户填资料的时候不正确。

VC bound的核心就是从罐子中抽取弹珠,orange就是发生“坏事情”的几率。

左边的目标函数f是确定的,给出一个点只会对应一个输出值。而右边的指的是罐子里的一部分弹珠会不停地改变颜色,代表的就是数据集中的noise(比如说,noisy的弹珠就是百分之四十的时间是橘色,百分之六十的时间是绿色),此时的输出y不再是唯一的yn=f(xn),而是在某一个点上发生变化的概率进行取样。

VC bound仍旧是有效的,在满足时。


Target Distribution

对于每一个点做预测,最理想的Mini-target


上面的例子中,ideal mini-target就是“圆圈”,因为在x这一点上预测输出是“圆圈”还是“叉叉”的概率分别是:0.7和0.3,所以“圆圈”就是最理想的mini-target。

目标函数是“确定的”其实就是target distribution的一个特例,在满足y=f(x)的时候,最理想的预测只有一个,所以选取的概率就是1.


Goal of learning

预测最理想的mini-target是在“最常见的x”的基础上,“最常见”也就是相对比较重要的inputs。


FUN TIME


B.数据集不是线性可分的,并不能得出目标函数一定不是线性函数的结论。

因为f是线性函数,但是加上noisy噪声之后数据集变得线性不可分了。

C.数据集是线性可分的,并不能得出目标函数一定是线性函数的结论。

因为f是非线性函数,但是选取的 inputs 资料很幸运,都完全满足线性可分。


原创粉丝点击