学习理论-模型选择-2-训练样本数量与误差上界
来源:互联网 发布:网络传播概论新编 编辑:程序博客网 时间:2024/06/05 09:57
在模型选择-1-问题引入中我们知道,我们要获得尽可能小的泛化误差。下面让我们一起看看泛化误差与样本数量和模型数量的关系。
当H 中模型数有限时
证明一致收敛性
我们假设
假如选定
回想之前对训练误差的定义:
上式说明,对于确定的
首先,令
第一行是指:我们的模型中只要有一个满足条件即可,或者说至少要有一个满足条件,因为我们只需要选择出一个最好的模型。第二行以及后面的显然是成立的。
两边同时用1减得:
该条件称为,一致性收敛(uniform convergence),它是说明,当m足够大时,假设集中的所有
如果给定
我们可以得到
同样的我们可以固定
使用一致收敛性得出结论
基于一致收敛性,
令
令
我们可以得到下面的结论:
第一行使用了条件
因此,可知,如果满足了一致性收敛,那么我们的算法选择出的模型
因此令
显然不等式右面第二项就是
这个式子实际上描述了偏差与方差的权衡;当模型数量增加时右面第一项只会减小,不会增大,但是第二项却因为k变大而增大;第一项其实反映了偏差,第二项反映了方差。
令
当H 中模型数无限时
为了简化处理,我们由一个不太严谨的假设开始:
假设
因此,训练样本数量至少与参数数量线性相关。
虽然这个假设不严谨,但是他却是合理的,且可以推广到k为无限大的情况:
因为对于线性回归分类
给定一个新的样本集
看下面的图来说明分散问题(shatters):
由图可知二维坐标系中的任意两个点必然可以被线性分类器shatter.
可见二维坐标中的三个点也可以被线性分类器shatter.
显然二维坐标系中的四个点必然存在不能被线性分类器shatter的情况。
给定一个
begin-补充-VC维
在二维坐标系中,三个样本点的情况下存在下面分布情况,左图是三个样本的分布位置,右图是在在这三个位置上可能出现的一种分布情况,显然在这种分布下他是无法被线性分类器shatter的。
但是,当我们给予这三个点不同的坐标,可以找到使得他们能够被shatter的情况,比如三个点的位置如下,显然这就是我们上面的例子中的分布,基于这三个点的当前位置的所有组合(共
但是对于二维坐标系中的四个点,必然是不能被线性分类器shatter的,即无法给四个样本找到固定的坐标,使得基于当前坐标的
因此,线性分类器,在二维坐标系中的VC维
end-补充
下面给出Vapnik和Chervonenkis基于VC维证明得到的结论:
对于某一
因此可知,至少有
上式说明,当
下面得到我们的结论:
对于
因此,训练样本的数量,应该与
事实上,实际应用中,VC维基本都是是和训练模型的参数数目相差无几的,因此样本数量也是与样模型参数呈线性关系的。
- 学习理论-模型选择-2-训练样本数量与误差上界
- 学习理论-模型选择-3-模型训练规则、特征选择
- 神经网络模型选择与训练
- 《机器学习》第二章 模型评估与选择 笔记2 泛化误差的评估方法
- 学习理论-模型选择-1-问题引入
- Ein 和 Eout ,分别表示学习到的最终假设 g 与未知的目标函数 f 在训练样本内的误差 和 在训练样本之外的误差。
- 对抗样本与对抗训练
- 对抗样本与对抗训练
- 对抗样本与对抗训练
- 人工神经网络训练样本的选择方法
- 深度学习对训练样本的数量要求
- 机器学习(六) - - 模型评估和选择①经验误差与过拟合
- 模型评估与选择 ( Bias(偏差),Error(误差),和Variance(方差) )
- 用训练好的caffe模型来测试样本
- 模型训练之参数选择
- 机器学习理论与实战(十三)概率图模型01
- 机器学习理论与实战(十四)概率图模型02
- 机器学习理论与实战(十五)概率图模型03
- iOS数据持久化 归档
- 使用tempest测试openstack
- Log4j 使用详细教程
- 应用内动态下载苹果提供的多种中文字体
- 2016蓝桥杯第7题
- 学习理论-模型选择-2-训练样本数量与误差上界
- oracle 数据库查询排序小结
- Oracle Data Recovery Advisor(DRA)
- HDFS上读写数据的流程解释
- Android源码解析之(八)-->Zygote进程启动流程
- 多变量线性回归
- Linux分区
- 在线补丁的激活方法、装置及系统
- Android夜间模式官方最佳实践