机器学习(四)经验风险与结构风险

来源:互联网 发布:网页html源码查看 编辑:程序博客网 时间:2024/05/16 09:33

1. 偏差与方差(bias and variance)

      在回归问题中,我们用一个简单的线性模型来拟合样本,称为线性回归,如图1;或者用更复杂,高维的函数来拟合,比如二次函数得到图2,六次函数得到图3.

这里写图片描述

      我们可以看出来, 六次函数完美地拟合了六个点,误差为0.但是,当我们用这样的拟合模型来进行预测的时候,效果反而不好.通过观察我们发现,二次的模型也许能够更好地拟合这些样本分布.虽然1,3图都不能很好地拟合真实分布,但是他们的问题是很不一样的.我们暂且称图1的问题为偏差(bias),图3的问题为方差(variance).

2. 一般误差与经验误差

我们来定义如下几个概念:

一般误差:

      指的是,我们使用拟合的模型,在任意样本下,得到的误差。也就是模型的真实误差,也称一般误差。

经验误差:

      指的是训练样本的误差,也就是上图中拟合函数对于这几个点的误差。因为这些误差是基于训练样本的,也就是基于已知经验的,称为经验误差。



      在机器学习中,我们当然希望拟合的模型能够在更大的集合上有最小的误差。也就是说,机器学习的目标是:最小化一般误差。可惜的是,最小化一般误差是NP难题。 于是一般的解决方法就是转而最小化经验误差(ERM)。现在许多的机器学习方法也都是基于ERM的。比如概率学的 最大似然原则 ,神经网络等等。正如上面三幅图所描述的,第三幅图的经验误差是最小的(=0),但是其效果不见得是最好的。也就是说,用经验误差来代替一般误差貌似不是最优的。

3. ERM(Empirical Risk Minimization)

      下面用数学语言来描述一般误差(General Risk),经验误差(Empirical Risk)的关系。看看用ER来代替GR有多大的可行性。

3.1 ERM合理性

首先是两个引理:

  • 联合概率:A1,Ak表示非独立的随机变量,他们的联合概率有如下性质:

这里写图片描述

  • 切比雪夫不等式:

这里写图片描述

Z1,Z2...Zm 表示m个独立同分布的随机变量他们的均值为:ϕ^=(1/m)ni=1Zi。 而原分布的均值未知。根据大数定理,样本均值收敛于一个以原分布均值为中心的高斯分布,随着m的不断增加,高斯分布的方差减小。得到上述不等式,也就是切比雪夫不等式。语言描述,就是:已知样本的均值与原分布均值的误差存在上限。
接着开始我们的证明

现在有n个拟合函数,记为H={h1,h2,…..hn};假设现在的H表示所有一次函数的集合.

ERM的做法是在这n个中,选择一个经验风险最小的h.

切比雪夫不等式的均值换成经验误差(ER)与一般误差(GR),就得到如下结论:

这里写图片描述

也就是,H中的任意拟合的经验误差都是其一般误差的较好估计,(注意不是最好的一般误差,是任意拟合自己的一般误差).

这个结论直观地来理解就是,训练样本是一般样本的一个子集,满足一般样本的分布. ER存在关于GR的一个上限.

继续来解读这个不等式.

变化不等式,得到:

这里写图片描述,其中 这里写图片描述

K=|H|,也就是拟合函数的VC维.具体什么是VC维,可以进一步去了解,这里不赘述.现在我们简单地理解为拟合函数的维数.

上面证明归纳为:ER与GR的区别存在上限,这个区别随着m的增加而减小.

M也称为样本复杂度.

这个证明的另一种解释就是,想要ERM的误差在一定的范围,训练样本的个数m必须满足一定的大小要求.

上面表明任意拟合函数GR与ER之间的关系;而ERM选择经验风险最小的拟合.继续证明这种选择的正确性.

这里写图片描述

这个公式很重要,其中h^表示根据ERM原则,选择的有最小ER的h.

h*表示H中一般误差最小的h,也就是我们不解决NP难题之外的最好选择.

这里写图片描述

OK,终于证明了.总结一下ERM合理性:

  1. 经验误差存在上限,是其一般误差的比较好的估计,不会超过r

  2. 选择最小经验误差的拟合函数,其与最佳一般误差函数的差异不会超过2r

4. SRM(Structural risk minimization)

      终于,结构风险最小化出现了.(Structural Risk Minimization)结构风险就是综合ERM与置信范围,寻求一个折中的最佳点.如上图的二次拟合函数,应该就是SRM的选择。机器学习的具体运用中,一般不使用训练误差来判断好坏,而是引入一般误差的另一个子集来估计,即测试误差。

通过测试误差和训练误差的比较,还有训练样本的数量我们能够对结构风险做一些简单的猜测。

1.小样本问题:也就是训练样本m很小,而特征维数过大,容易造成过拟合。(可以参照上面的公式)。这时候可以考虑增加样本数量,或减低样本维数等。

2.训练误差很小,测试误差很大。也就是偏差很小,方差很大。考虑过拟合,减小拟合函数VC维等。

3.训练误差,测试误差都很大,考虑欠拟合,增加拟合函数的VC维.

1 0
原创粉丝点击