机器学习和数据挖掘(6):雷蒙保罗MAPA泛化理论
来源:互联网 发布:淘宝美德威萨克斯 编辑:程序博客网 时间:2024/05/01 03:40
泛化理论
上一章中提到的生长函数
上一章还介绍了突破点(break point)的概念,即不能满足完全分类情形的样本点个数。不存在
关于突破点可以举一个例子。
N=3,k=2 的生长函数值。如图a)表示在三个样本点时,可以随意选择一种二分的情况,不会违反任意两个样本点出现四种不同的二分类情况(因为突破点是2);
如图b)表示在a)的基础上,添加不与之前重复的一种二分类,出现了两种不冲突的二分类,也没有违反任意两个样本点出现四种不同的二分类情况;
如图c) 表示在b)的基础上,再添加不与之前重复的一种二分类,出现了三种不冲突的二分类;
如图d) 表示在c)的基础上,再添加不与之前重复的一种二分类,问题出现了,样本
x2x3 出现了四种不同的二分情况,和已知条件中突破点k=2 矛盾(即,对于任意2 个样本,不能得到完全二分类,最多只能出现三种二分类),因此将其删去。如图e) 表示在c)的基础上,再添加不与之前重复的一种二分类,此时同样也没有任何问题,不会违反任意两个样本点出现四种不同的二分类情况;
如f) 表示在e)的基础上,再添加不与之前重复的一种二分类,问题又出现了,样本
x1x3 出现了四种不同的二分情况,和已知条件中k=2的条件不符(最多只能出现三种二分类),因此将其删去。
a) b)
c) d)
e) f)当
N=3,k=3 时,则只有当x1,x2,x3=××× 的时候,存在三个样本得到完全二分类的情况,那么他的生长函数mH(3)=7 。
还有一个更简单的例子,假设突破点
上限函数
在考虑替换基于Hoeffding不等式的
为了证明这个,我们也没有必要找出
所以我们提出了一个函数,上限函数(bounding function),
加州理工的视频中用一种更加抽象的说法来证明,而台大的似乎用的是一种更加具体的方式来解释。
我们可以举一个例子,但是我并不打算把它推广到更广泛的地步。
先列出
将之重新排列之后,我们为了得到一种通过递归的方式来计算
上图紫色部分中
上图橙色部分中
那么我们就可以得到总行数
注意,
其中橙色部分,进行去重后,就合并成了4种二分类情况,紫色部分不变依然为3种二分情况。因为该图是从
继续观察橙色部分的区域,如图所示。
相似上面的证明方式。
假设
将其中任意两列取出,同之前被删除的
但是此结论和原始矩阵中任意三个样本不能完全二分冲突了,因此假设不成立,即在图中一定存在某两个样本点不能完全二分的情况,因此得出如公式:
结合公式(1)(2)(3),我们可以得到
我们没法证明小于的情况是不存在的,但是好在我们只需要得到一个上限就足够了。
那么我们可以明显地看出来这是一个二项式系数,那么也可以得到通项公式:
我们再通过数学归纳法对通项公式进行一番证明。
在
那么我们假设在
结合公式(4)(5),则有
结果成立。
那么我们就已经证明了
替换M之后
我们原本的公式为
我们想要将之替换为
坏数据的重叠
如下图(a)所示,整个矩阵表示的是输入空间,小点表示一个输入样本,彩色图像表示通过Hoeffding不等式得到的坏数据。
如下图(b)所示,用的是联合边界得到的坏数据,因为从来不考虑坏数据的重叠性,它非常迅速地沾满了整个输入空间。
如下图(c)所示,采用的是生长函数代替联合上限对坏的数据进行处理。相比于联合边界,生长函数通过二分类的去重等方式将一个输入空间的变化情况减少,从而使得对于一个坏数据而言可能会被若干个假设所占用。
但是这又引发了一个问题,对于一个坏数据而言,它不仅仅与我们的采样有关,而与整个输入空间有关。坏数据意味着,这个样本点偏离了
如何处理Eout
我们采用的是将N扩大两倍的方法。
按先后循序,分三步简单说明一下这些变化的原因。
用
E′in 代替Eout 。因为
Ein 是训练样本,所以可能性是有限的,因为假设空间的种类被生长函数约束了,而样本大小基本固定,所以错误样本也最多只有mH(h) 种;但是对于Eout(h) 的可能性还是无限多,因为总体的样本是无限大的,错误样本也自然是无限多。为了解决这个问题,提出了影子数据的概念(ghost data),我们将样本数扩大两倍,用其中新的样本取代整个样本去近似求解在无限大的数据中
Eout 的值,记作E′in 。(我不是很懂为什么这样做,下面的解释是摘抄的)下图表示和的分布情况,其中为它俩的分布中心,假设数据D的情况下很大,从图中不难看出,再抽取一次数据得到的很大的几率,最多只有条件很大的一半概率,意味着和很接近的几率最多只有很大这个条件的一半(因为从该图中得知和只可能变得小于),即很小的几率最多只有很大这一几率的一半。
换句话说很大的几率至少是很大这一几率的一半:
12P[|Ein(h)−Eout(h)|>ϵ]≤P[|Ein(h)−E′in(h)|>ϵ] 增加一个更强的约束条件(我也不懂这个是怎么就加上去的):
P[|Ein(h)−Eout(h)|>ϵ]≤2P[|Ein(h)−E′in(h)|>ϵ2] 分解假设空间的种类
可以知道
Ein 的可能性与样本D 有关,而E′in 的可能性与样本D′ 有关,因此整个假设空间的种类可以写成|H(x1,…,xN,x′1,…,x′N)| ,由上几章的说明可以知道,其上限最大为生长函数mH(2N) 。
因此坏事情的发生概率就变成了:BAD≤2P[|Ein(h)−E′in(h)|>ϵ2]≤2⋅mH(2N)2P[|Ein(h)−E′in(h)|>ϵ2] 使用无取回的霍夫丁。
还是用小球和罐子的那个例子解释,罐子中不再是无限多个小球,而是2N个小球,选择N个小球而留下另外N个,可以通过得出:
|Ein−E′in|>ϵ2⇔|Ein−E′in+Ein2|>ϵ4 最终得到公式
BAD≤=≤2⋅mH(2N)2P[|Ein(h)−E′in(h)|>ϵ2]2⋅mH(2N)2P[|Ein−E′in+Ein2|>ϵ4]2⋅2mmathcalH(2N)e−2⋅(ϵ4)2N 至此说明了一个在机器学习领域很著名的理论——V-C上界制(Vapnik-Chervonenkis bound)。
- 机器学习和数据挖掘(6):雷蒙保罗MAPA泛化理论
- 加州理工学院公开课:雷蒙保罗MAPA泛化理论(第六课)
- 基于机器学习和数据挖掘理论的生物信息学札记:自序
- 机器学习和数据挖掘(3):线性模型
- 机器学习和数据挖掘(4):噪声与误差
- 机器学习和数据挖掘(5):训练与测试
- 机器学习和数据挖掘(7):VC维
- 机器学习和数据挖掘(8):偏见方差权衡
- 机器学习和数据挖掘(9):线性模型
- 文本分类,数据挖掘和机器学习
- 文本分类,数据挖掘和机器学习
- 机器学习和数据挖掘软件汇总
- 文本分类,数据挖掘和机器学习
- 文本分类,数据挖掘和机器学习
- 机器学习和数据挖掘推荐书单
- 机器学习和数据挖掘推荐书单
- 机器学习和数据挖掘推荐书单
- 文本分类,数据挖掘和机器学习
- 血管疼#6
- 深入学习consul
- 【NIO总结】—NIO中的通道
- 保存bitmap 图片路径
- C++之关于static关键字的充电---补充(7)《Effective C++》
- 机器学习和数据挖掘(6):雷蒙保罗MAPA泛化理论
- 数学模型的适用范围
- A_S_M
- poj3281 Dining 题解
- 2017年7月22日20:45:16
- MapReduce编程基础(一)——基础知识
- 按图形输出
- 最大子矩阵(悬挂线)
- 相对定位