机器学习（四）经验风险与结构风险

来源：互联网发布：网页html源码查看编辑：程序博客网时间：2024/05/16 09:33

1. 偏差与方差(bias and variance)

在回归问题中,我们用一个简单的线性模型来拟合样本,称为线性回归,如图1;或者用更复杂,高维的函数来拟合,比如二次函数得到图2,六次函数得到图3.

这里写图片描述

我们可以看出来, 六次函数完美地拟合了六个点,误差为0.但是,当我们用这样的拟合模型来进行预测的时候,效果反而不好.通过观察我们发现,二次的模型也许能够更好地拟合这些样本分布.虽然1,3图都不能很好地拟合真实分布,但是他们的问题是很不一样的.我们暂且称图1的问题为偏差(bias),图3的问题为方差(variance).

2. 一般误差与经验误差

我们来定义如下几个概念:

一般误差:

指的是，我们使用拟合的模型,在任意样本下，得到的误差。也就是模型的真实误差，也称一般误差。

经验误差:

指的是训练样本的误差，也就是上图中拟合函数对于这几个点的误差。因为这些误差是基于训练样本的，也就是基于已知经验的，称为经验误差。

在机器学习中,我们当然希望拟合的模型能够在更大的集合上有最小的误差。也就是说，机器学习的目标是：最小化一般误差。可惜的是，最小化一般误差是NP难题。于是一般的解决方法就是转而最小化经验误差(ERM)。现在许多的机器学习方法也都是基于ERM的。比如概率学的 最大似然原则 ，神经网络等等。正如上面三幅图所描述的，第三幅图的经验误差是最小的(=0)，但是其效果不见得是最好的。也就是说,用经验误差来代替一般误差貌似不是最优的。

3. ERM(Empirical Risk Minimization)

下面用数学语言来描述一般误差(General Risk)，经验误差(Empirical Risk)的关系。看看用ER来代替GR有多大的可行性。

3.1 ERM合理性

首先是两个引理:

联合概率:A1,Ak表示非独立的随机变量,他们的联合概率有如下性质:

这里写图片描述

切比雪夫不等式:

这里写图片描述

Z1,Z2...Zm 表示m个独立同分布的随机变量他们的均值为：ϕ^=(1/m)∑ni=1Zi。而原分布的均值未知。根据大数定理,样本均值收敛于一个以原分布均值为中心的高斯分布，随着m的不断增加，高斯分布的方差减小。得到上述不等式，也就是切比雪夫不等式。语言描述，就是：已知样本的均值与原分布均值的误差存在上限。
接着开始我们的证明