机器学习与数据挖掘(2):学习的可能性
来源:互联网 发布:开淘宝网店怎么赚钱 编辑:程序博客网 时间:2024/05/29 07:34
误差理论
① 偏倚(bias)和方差(variance)
在讨论线性回归时,我们用一次线性函数对训练样本进行拟合(如图1所示);然而,我们可以通过二次多项式函数对训练样本进行拟合(如图2所示),函数对样本的拟合程序看上去更“好”;当我们利用五次多项式函数对样本进行拟合(如图3所示),函数通过了所有样本,成为了一次“完美”的拟合。
图3建立的模型,在训练集中通过x可以很好的预测y,然而,我们却不能期望该模型能够很好的预测训练集外的数据。换句话说,这个模型没有很好的泛化能力。因此,模型的泛化误差(generalization error)不仅包括其在样本上的期望误差,还包括在训练集上的误差。
图1和图3中的模型都有较大的泛化误差,然而他们的误差原因却不相同。图1建立了一个线性模型,但是该模型并没有精确的捕捉到训练集数据的结构,我们称图1有较大的偏倚(bias),也称欠拟合;图3通过5次多项式函数很好的对样本进行了拟合,然而,如果将建立的模型进行泛化,并不能很好的对训练集之外数据进行预测,我们称图3有较大的方差(variance),也称过拟合。
通常,在偏倚和方差之间,这样一种规律:如果模型过于简单,其具有大的偏倚,而如果模型过于复杂,它就有大的方差。调整模型的复杂度,建立适当的误差模型,就变得极其重要了。
② 预备知识
首先我们先介绍两个非常有用的引理:
引理1
一致限(the union bound)令
一致限说明:k个事件中任一个事件发生的概率小于等于这k个事件发生的概率和(等号成立的条件为这k个事件相两两互斥)。
引理2
Hoeffding不等式(Hoeffding’s inequality)令
Hoeffding刻画的是某个事件的真实概率及其m个独立重复试验中观察到的频率之间的差异,更准确的将,它是应用于m个不同的伯努利实验。
在机器学习中,引理2称为Chernoff边界(Chernoff bound),它说明:假设我们用随机变量的均值
通过以上两个引理,我们能够引出机器学习中很重要结论。
为简单起见,我们只讨论二分类问题,即类标签为
假设给定的训练集为
训练误差为模型在训练样本中的错分类的比例,如果我们要强调
我们再定义泛化误差(generalization error):
这里得到的是一个概率,表示通过特定的分布D生成的样本
注意,我们假设训练集的数据是通过某种分布D生成的,我们以此为依据来衡量假设函数。这里的假设有时称为PAC(probablyapproximately correct)假设。
在线性分类中,假设函数
我们称这样的方法为经验风险最小化(empirical risk mininmization,ERM),其中
我们定义假设类集合
例如线性分类问题中,
因此,ERM也可以认为是一组分类器的集合中,使得训练误差最小的那个分类器,即:
③ 有穷集H
我们定义假设类集合
为了确保
我们令
泛化误差
利用Hoeffding不等式,可以得到:
从上式可以看出,对于特定的
现令
也可以得到他的等价式:
上式表示了假设集
样本量下界
以上的不等式有三个元素:样本量m,误差阈值
如果给定
令
上面的不等式确定了一个m的下界,该下界称为算法的样本复杂度(algorithm’s sample complex),也就是说,如果我们想通过样本对总体有个较为准确的估计,我们需要采集最小的样本量是多少。
误差界限
如果我们固定m和
假设一致收敛成立,那么对于所有
令
上式第一行不等式依据的是
第二行是由
第三行是根据不等式
从不等式可以看出,对于
定理1
令
定理1给出了一个很重要的结论:如果我们扩充假设类集合的范围,即由原来的假设类
假如固定
推论1:令
④ 无穷集
上一节我们介绍了在假设类集合是有穷集的情况下泛化误差、训练误差和样本量之间的关系。然而,存在很多以实数为参数的模型,假设类集合中元素数量是无穷的(如线性分类问题)。我们将如何处理?
下面以线性分类为例,假设分类的决策边界由线性函数表示,且该线性函数有d个实数参数。如果我们用计算机表示这些实数,根据IEEE双精度浮点数的标准,用64位二进制表示一个实数,那么,这d个实数需要用64d个2进制位表示,因此,这里假设类集合最多由
前文的结论是依赖于
最后通过引入VC维的概念,将误差理论推广到更加一般的情形。
VC维
给定一个集合;
下面举例说明,假设有三个点如下图所示:
这三个样本点有
然而,线性分类器最多对3个点构成的所有可能分类情况进行无误差分类。如果超过3个点线性分类器将无法进行分类。如下图所示:
这里的结论可能很悲观,线性分类器在二维平面上至多只能给3个点进行无误差的分类。(更一般的,k维线性分类器最多只能给k+1个点进行无误差分类。)
然而,实际的应用中,并不需要构建一个模型使得对于训练集进行无误差的分类,甚至分类过于精确,会使得模型的泛化能力变得很弱,因此VC维仅仅是保证理论的严密,以及可以相关证明的前提条件,并不能完全做为分类算法准确程度的度量。
最后,介绍两个重要的定理:
定理2
令
同样有
也就是说,如果一个假设集
推论2
假设
推论2的含义是,如果需要确保训练误差和泛化误差的差值在一个给定的范围内,并且发生的概率不低于
⑤ 总结
本文给出了训练误差和泛化误差的一般性定义;并介绍了ERM原则;证明了泛化误差和训练误差间差距、样本量和误差概率之间的关系;最后通过引入VC维,推出了更一般的情况下他们之间的关系。
附录
Hoeffding不等式证明
- 机器学习与数据挖掘(2):学习的可能性
- 加州理工学院公开课:机器学习与数据挖掘_学习的可能性(第二课)
- 机器学习与数据挖掘的关系
- 机器学习与数据挖掘的关系
- 数据挖掘与机器学习的区别
- 数据挖掘与机器学习的区别
- 数据挖掘与机器学习的区别
- 机器学习与数据挖掘
- 机器学习与数据挖掘
- 机器学习与数据挖掘
- 机器学习与数据挖掘
- 机器学习与数据挖掘
- 机器学习与数据挖掘
- 机器学习与数据挖掘
- 机器学习与数据挖掘的学习路线图
- 机器学习与数据挖掘的学习路线图
- 数据挖掘,机器学习,统计学习的区别与联系
- 机器学习与数据挖掘的学习路线图
- Mysql-函数与过程
- 1569: [JSOI2008]Blue Mary的职员分配
- 城市网络——可持久化栈
- HTML标签
- 适配器模式
- 机器学习与数据挖掘(2):学习的可能性
- 数据解析之XML
- favicon.ico 图标及时更新问题
- 0708学习总结(构造函数,析构函数,关键字)
- nltk文本数据预处理库
- Java关键字
- (转)百万年薪的人才泡沫与人工智能的虚假繁荣
- 数据解析之JSON
- Android利用listview实现游戏选择关卡