机器学习(四)经验风险与结构风险
来源:互联网 发布:网页html源码查看 编辑:程序博客网 时间:2024/05/16 09:33
1. 偏差与方差(bias and variance)
在回归问题中,我们用一个简单的线性模型来拟合样本,称为线性回归,如图1;或者用更复杂,高维的函数来拟合,比如二次函数得到图2,六次函数得到图3.
我们可以看出来, 六次函数完美地拟合了六个点,误差为0.但是,当我们用这样的拟合模型来进行预测的时候,效果反而不好.通过观察我们发现,二次的模型也许能够更好地拟合这些样本分布.虽然1,3图都不能很好地拟合真实分布,但是他们的问题是很不一样的.我们暂且称图1的问题为偏差(bias),图3的问题为方差(variance).
2. 一般误差与经验误差
我们来定义如下几个概念:
一般误差:
指的是,我们使用拟合的模型,在任意样本下,得到的误差。也就是模型的真实误差,也称一般误差。
经验误差:
指的是训练样本的误差,也就是上图中拟合函数对于这几个点的误差。因为这些误差是基于训练样本的,也就是基于已知经验的,称为经验误差。
在机器学习中,我们当然希望拟合的模型能够在更大的集合上有最小的误差。也就是说,机器学习的目标是:最小化一般误差。可惜的是,最小化一般误差是NP难题。 于是一般的解决方法就是转而最小化经验误差(ERM)。现在许多的机器学习方法也都是基于ERM的。比如概率学的 最大似然原则 ,神经网络等等。正如上面三幅图所描述的,第三幅图的经验误差是最小的(=0),但是其效果不见得是最好的。也就是说,用经验误差来代替一般误差貌似不是最优的。
3. ERM(Empirical Risk Minimization)
下面用数学语言来描述一般误差(General Risk),经验误差(Empirical Risk)的关系。看看用ER来代替GR有多大的可行性。
3.1 ERM合理性
首先是两个引理:
- 联合概率:A1,Ak表示非独立的随机变量,他们的联合概率有如下性质:
- 切比雪夫不等式:
接着开始我们的证明
现在有n个拟合函数,记为H={h1,h2,…..hn};假设现在的H表示所有一次函数的集合.
ERM的做法是在这n个中,选择一个经验风险最小的h.
切比雪夫不等式的均值换成经验误差(ER)与一般误差(GR),就得到如下结论:
也就是,H中的任意拟合的经验误差都是其一般误差的较好估计,(注意不是最好的一般误差,是任意拟合自己的一般误差).
这个结论直观地来理解就是,训练样本是一般样本的一个子集,满足一般样本的分布. ER存在关于GR的一个上限.
继续来解读这个不等式.
变化不等式,得到:
,其中
K=|H|,也就是拟合函数的VC维.具体什么是VC维,可以进一步去了解,这里不赘述.现在我们简单地理解为拟合函数的维数.
上面证明归纳为:ER与GR的区别存在上限,这个区别随着m的增加而减小.
M也称为样本复杂度.
这个证明的另一种解释就是,想要ERM的误差在一定的范围,训练样本的个数m必须满足一定的大小要求.
上面表明任意拟合函数GR与ER之间的关系;而ERM选择经验风险最小的拟合.继续证明这种选择的正确性.
这个公式很重要,其中h^表示根据ERM原则,选择的有最小ER的h.
h*表示H中一般误差最小的h,也就是我们不解决NP难题之外的最好选择.
OK,终于证明了.总结一下ERM合理性:
经验误差存在上限,是其一般误差的比较好的估计,不会超过r
选择最小经验误差的拟合函数,其与最佳一般误差函数的差异不会超过2r
4. SRM(Structural risk minimization)
终于,结构风险最小化出现了.(Structural Risk Minimization)结构风险就是综合ERM与置信范围,寻求一个折中的最佳点.如上图的二次拟合函数,应该就是SRM的选择。机器学习的具体运用中,一般不使用训练误差来判断好坏,而是引入一般误差的另一个子集来估计,即测试误差。
通过测试误差和训练误差的比较,还有训练样本的数量我们能够对结构风险做一些简单的猜测。
1.小样本问题:也就是训练样本m很小,而特征维数过大,容易造成过拟合。(可以参照上面的公式)。这时候可以考虑增加样本数量,或减低样本维数等。
2.训练误差很小,测试误差很大。也就是偏差很小,方差很大。考虑过拟合,减小拟合函数VC维等。
3.训练误差,测试误差都很大,考虑欠拟合,增加拟合函数的VC维.
- 机器学习(四)经验风险与结构风险
- 机器学习-->期望风险、经验风险与结构风险之间的关系
- 结构风险与经验风险
- 经验风险与结构风险
- 经验风险与结构风险
- 经验风险与结构风险
- 经验风险与结构风险
- 经验风险与结构风险
- 经验风险与结构风险
- 【机器学习】统计知识之经验风险最小化与结构风险最小化
- 机器学习知识总结:代价函数与经验风险、结构风险最小化
- 机器学习中的经验风险,期望风险和结构风险最小化
- 经验风险最小化 与 结构风险最小化
- 经验风险最小化 与 结构风险最小化
- 期望风险、经验风险与结构风险之间的关系
- 经验风险和 结构风险
- 结构风险和经验风险
- 周志华《Machine Learning》学习拓展知识--经验风险与结构风险
- mysql 常用操作随记
- centos中设置一条指令为开机自动执行
- 数据库主要特点
- 我从来没有得到过你,却好像已经失去了你千万次。
- 图像锐化自适应
- 机器学习(四)经验风险与结构风险
- 猜数字小游戏
- Unit 1-Lecture 7:Binary Relation & Function
- Integer类型值相等或不等分析
- Java中关于final关键字的几个小知识点
- java开发工具配置中的jre、jdk的区别与联系
- Unity学习之打砖块小游戏
- 常见数学公式和符号的英文读法大全
- 全球四大卫星导航系统年鉴