机器学习笔记8——ERM
来源:互联网 发布:ios6版本淘宝hd 编辑:程序博客网 时间:2024/06/07 02:25
前言:在之前几章中我们已经了解到了很多算法,也知道了在人工智能领域中最强大的机器学习的工具。接下来需要理论结合实际将算法应用到实际问题中。这一笔记我们开始讲学习理论,了解理论知识。
下面开始介绍的第一个学习理论是偏差-方差权衡。
当我们讲线性回归时,我们讨论过一个问题:是使用简单的线性假设
从最右侧的图中可以看到,用五次多项式来拟合数据并不是一个好的模型。尤其是,即使五次多项式对训练样本做出了很好的预测,但我们把并不期待在不基于原有训练集的基础上该假设会有一个良好的预测效果。换句话说,该假设从训练集中习得的结果对其他训练样本并不具有良好的普适性。
这一假设的泛化误差是预期误差,但不必在训练集中存在。
在上述最左侧和最右侧的图都有泛化误差。然而,两种模型出现的问题不同。如果输入特征与输出变量的关系不是线性的,那么即使我们用线性模型去拟合大量的数据集,线性模型仍然不会成功捕获到数据中的结构。
因此,对于上述的问题,线性模型存在较大的偏差,也就是对数据的欠拟合。
除了偏差,泛化误差还有第二个部分,在模型拟合过程中的方差。尤其是当我们最右侧图中的五次多项式,在数据拟合过程中会存在很大的风险。因为在数据集中会偶然得到比平均房价高的数据样本,也会有比平均房价低的数据样本。为了拟合数据集中这些“有欺骗性”的模式,可能会再次出现较大的泛化误差。在这一过拟合过程中,模型有较大的方差。
而对于偏差与方差我们会找到一种折中的方案(平衡)。如果我们的模型太过简单有很少的参数,那么这个模型可能会有较大的偏差(较小的方差);相反如果模型太过复杂有很多的参数,那么这个模型可能会有较大的方差(但是较小的误差)。
在上述的问题中,用二次函数来拟合数据比前两者要好很多。
接下来我们将要更深入的理解过拟合与欠拟合,或者说高偏差与高方差。之后将会提出一个更为正式的机器学习模型,并且尝试证明这两个问题何时会出现。
首先考虑线性分类
所以现在给定一组训练集,
为了理解偏差和方差,我们将会使用一个简化的机器学习模型(特别说一下,逻辑回归通过对数似然性来拟合参数)。但为了更深入的理解机器学习算法,我们要定义一个简化版的机器学习的模型。
首先定义一个训练误差/风险:
上述公式的含义很明确:被假设错误分类的训练样本之和/总训练样本数 = 被假设错误分类的训练样本所占比例。
我们将要讲的简化版的机器学习模型被称作ERM(经验风险最小化)。
学习算法的目的是选择参数使得训练误差最小化。我们认为ERM算法是最基础的学习算法。(像逻辑回归也可以看作是ERM的近似算法)
对于上述ERM的目的,与其看作是选择参数来使训练误差最小,不如可以等价看作选择一个函数。所以,接下来我们定义一个假设类
其中每个假设
所以,我们需要重新定义ERM,相对于原来的选取参数使得训练误差最小化,改为从
解析:为什么要用这样的等价形式来表示ERM呢?原因如下:是对接下来的课程内容的考虑,在更为一般的情况下,
我们接下来要做的就是:尝试理解ERM是一个合理的算法。那么我们需要怎么证明呢?
首先我们需要明确,我们的目的不是对于训练集合的预测有多么准确(也就是说我们的目的不是训练误差),我们的终极目的是:对于我们之前没有遇到过的训练样本的预测效果(也就是说我们的终极目的是一般误差)。
一般误差的定义是:对于一个新的、由某个分布
接着,我们证明一些结论来表明ERM是一个合理的算法(因为它能带来较小的一般误差)。
两条引理
为了证明我们学到的这一理论的结论,我们先介绍两条引理。
引理1:联合界引理
让
引理2:Hoeffding不等式
让
上述不等式的含义是:估计的
介绍过引理之后,我们回到ERM话题。
以逻辑回归为例。接下来我们要讲述ERM的性质,需要考虑有限假设类的情形。
令
我们要证明的是:一般误差和最小误差之间的差值有上界,换句话说,如果训练误差不大,那么我们要证明一般误差也不会太大。
证明策略如下:
首先,我们要证明一般误差与训练误差近似
ε^≈ε 其次,我们要证明ERM输出的假设的一般误差
ε(h^) 存在上界
证明过程如下:
第一步
首先,我们不去考虑所有的假设,先考虑一个固定的假设
再根据引理2可得:
这个结论证明了:对于给定的假设
为了后续的讲述,令A_i 代表
现在我们希望证明:对于整个假设类
也可以写成如下不等式:
所以,在不小于不等式右侧的概率的情况下,训练误差与一般误差的差距在
接下来让我们看一下一致收敛的其他几个表述形式。上述的不等式表达的是一个概率的上界,当我们固定m和
那么接下来我们可以研究“给定
假设
训练误差与一般误差的差异都在
最后一个研究的是“给定m和
第二步
假设,对于假设类中所有的假设都有
定义如下等式:
我们要证明这一结论:
第一个不等式利用了假设
最后,我们将所有的结论放在一起得出一个定理。
定理
令
那么为了证明这个不等式成立,需要使用之前得出的结论,那么就可知一致性收敛成立。所以如果一致性收敛成立的话,上述不等式一定成立。
这个结果可以很好的量化方差与偏差的平衡。举个例子,假如有一个假设类
权衡是:上述定理中
我们可以这样认为,上述定理中的不等式中
扩展
对于一般误差和训练误差与模型复杂度的关系,随着模型复杂度越高,训练集中的数据拟合的越好,训练误差越小。然而,一般误差会在模型复杂度增高的过程中,先下降然后又上升。 下降的部分是因为数据欠拟合导致一般误差较高,同时伴随着较高的偏差;而上升部分是因为数据过拟合导致的,同时伴随着较高的方差。所以,为了最小化一般误差,就需要选择中间复杂度的模型。
推论
针对之前得到的定理,我们得到一个推论:给定假设类
- 机器学习笔记8——ERM
- 公开课机器学习笔记(16)学习理论一 经验风险最小化ERM
- 公开课机器学习笔记(17)学习理论二 VC维、ERM总结、模型选择、特征选择
- 机器学习—学习笔记
- 机器学习实战学习笔记8——朴素贝叶斯
- 机器学习笔记(一)——机器学习基础
- 《机器学习实战》笔记一——机器学习基础
- 机器学习整理笔记——基于《机器学习实战》
- COURSERA机器学习笔记——机器学习介绍
- 机器学习笔记——机器学习概述
- 机器学习笔记1——什么是机器学习
- 机器学习笔记——机器学习中的距离
- 机器学习笔记——决策树学习
- 机器学习笔记——贝叶斯学习
- 学习笔记——机器学习导论
- 周志华《机器学习》——学习笔记
- 机器学习笔记——集成学习
- 机器学习——神经网络学习笔记
- java反射,打开activity
- 设计模式之适配器模式
- Java集合框架经典问题——HashMap与Hashtable区别
- c#创建透明背景用户控件
- A 谍报分析 河南第十届ACM真题 【字符串处理】
- 机器学习笔记8——ERM
- SDWebImage 如何加载存储在Ftp服务器上的图片
- 1007. 素数对猜想 (20)
- java IO(输入输出) 对象的序列化和反序列化
- 【数据仓库】【入门】如何靠建数据仓库发家
- 内存访问(寄存器)
- 解决:Spark-HBASE Error Caused by: java.lang.IllegalStateException: unread block data
- Nginx服务器搭建和基本配置详解
- jQuery的内部全局变量和构造函数