经验风险与结构风险

来源:互联网 发布:vobsub字幕软件 编辑:程序博客网 时间:2024/04/29 14:47
 

经验风险与结构风险

分类: 机器学习 305人阅读 评论(0) 收藏 举报
经验风险结构风险ERMSRM

目录(?)[+]


偏差与方差(bias and variance)

 

在回归问题中,我们用一个简单的线性模型来拟合样本,称为线性回归,如图1;或者用更复杂,高维的函数来拟合,比如二次函数得到图2,六次函数得到图3.

 

我们可以看出来, 六次函数完美地拟合了六个点,误差为0.但是,当我们用这样的拟合模型来进行预测的时候,效果反而不好.

通过观察我们发现,二次的模型也许能够更好地拟合这些样本分布.

虽然1,3图都不能很好地拟合真实分布,但是他们的问题是很不一样的.

我们暂且称图1的问题为偏差(bias),图3的问题为方差(variance).

 

一般误差与经验误差

 

我们来定义如下几个概念:

1.      一般误差:

指的是,我们使用拟合的模型,在任意样本下,得到的误差.也就是模型的真实误差,也称一般误差.

2.      经验误差:

指的是训练样本的误差,也就是上图中拟合函数对于这几个点的误差.因为这些误差是基于训练样本的,也就是基于已知经验的,称为经验误差.

 

在机器学习中,我们当然希望拟合的模型能够在更大的集合上有最小的误差.

也就是说,机器学习的目标是,最小化一般误差.

 

可惜的是,最小化一般误差是NP难题.

于是一般的解决方法就是转而最小化经验误差(ERM).现在许多的机器学习方法也都是基于ERM的.比如概率学的最大释然原则,神经网络等等.

 

正如上面三幅图所描述的,第三幅图的经验误差是最小的(=0),但是其效果不见得是最好的.也就是说,用经验误差来代替一般误差貌似不是最优的.

 

ERM介绍

(Empirical risk minimization)


下面用数学语言来描述一般误差(General Risk),经验误差(Empirical Risk)的关系.看看用ER来代替GR有多大的可行性.


ERM合理性


首先是两个引理:

1.      联合概率:A1,Ak表示非独立的随机变量,他们的联合概率有如下性质:


2.      切比雪夫不等式:


Z1,Zm表示m个独立同分布(i.i.d)的随机变量,他们的均值表示为,而原分布的均值未知.

根据大数定理,样本均值收敛于一个以原分布均值为中心的高斯分布,随着m的不断增加,高斯分布的方差减小.

得到上述不等式,也就是切比雪夫不等式.

语言描述,就是:已知样本的均值与原分布均值的误差存在上限.

 

接着开始我们的证明

现在有n个拟合函数,记为H={h1,h2,…..hn};假设现在的H表示所有一次函数的集合.

ERM的做法是在这n个中,选择一个经验风险最小的h.

 

切比雪夫不等式的均值换成经验误差(ER)与一般误差(GR),就得到如下结论:


也就是,H中的任意拟合的经验误差都是其一般误差的较好估计,(注意不是最好的一般误差,是任意拟合自己的一般误差).

这个结论直观地来理解就是,训练样本是一般样本的一个子集,满足一般样本的分布. ER存在关于GR的一个上限.

 

继续来解读这个不等式.

变化不等式,得到:

,其中

K=|H|,也就是拟合函数的VC维.具体什么是VC维,可以进一步去了解,这里不赘述.现在我们简单地理解为拟合函数的维数.

 

上面证明归纳为:ER与GR的区别存在上限,这个区别随着m的增加而减小.

M也称为样本复杂度.

这个证明的另一种解释就是,想要ERM的误差在一定的范围,训练样本的个数m必须满足一定的大小要求.

 

上面表明任意拟合函数GR与ER之间的关系;而ERM选择经验风险最小的拟合.继续证明这种选择的正确性.


这个公式很重要,其中h^表示根据ERM原则,选择的有最小ER的h.

h*表示H中一般误差最小的h,也就是我们不解决NP难题之外的最好选择.

:最小经验误差的一般误差

:最小经验误差的经验误差

:最小一般误差的经验误差

:最小一般误差的一般误差

第一个不等式来至与切比雪夫不等式;

第二个来自于h^是我们选择的最小经验误差的拟合函数.

第三个不等式同样来至于切比雪夫不等式.

 

上面不等式给定了ERM选择与最优选择,他们的一般误差的差异最多不超过2r.

当然,上述的证明还有许多没写出来的,比如我们还要证明所有的经验误差与一般误差区别都很小的概率很大,即一致收敛.

 

OK,终于证明了.总结一下ERM合理性:

1.      经验误差存在上限,是其一般误差的比较好的估计,不会超过r

2.      选择最小经验误差的拟合函数,其与最佳一般误差函数的差异不会超过2r

 

ERM的局限性

整理一些最后的式子,得到:

 

假设另一个拟合集合H’;

简单的类比:H’表示六次函数集合,H表示线性函数集合.那么用H’代替H时

1.      第一项肯定减小,(因为H是H’的子集,只可能减小); 误差(bias)

2.      第二项的K肯定增加(k是VC维,可以简单看做集合的维数). 方差(variance)

那么用H’代替H(用高VC维函数,代替低VC维)时,结果不确定.

画出如下的图形:

 


图1看出,随着VC维的增加(简单理解为拟合函数维数增加),经验风险减小,置信范围增加.他们都小于真实风险.

继续看一开始的那幅图:


1.      分别用一次,二次,六次函数,VC维增加,经验风险减小(六维的经验风险为0),

2.      VC为增加,k增加,置信范围增加,也就是更不可信了,容易造成过拟合.

 

1就是开始说的偏差(bias),2就是方差(variance).

 

再具体到ERM,ERM只是寻求最小的偏差,而不管方差.这就是ERM的局限性.

 

SRM介绍

(Structural risk minimization)

 

终于,结构风险最小化出现了.(Structural Risk Minimization)

结构风险就是综合ERM与置信范围,寻求一个折中的最佳点.如上图的二次拟合函数,应该就是SRM的选择.


机器学习的具体运用中,一般不使用训练误差来判断好坏,而是引入一般误差的另一个子集来估计,即测试误差.


通过测试误差和训练误差的比较,还有训练样本的数量我们能够对结构风险做一些简单的猜测.

1.小样本问题:也就是训练样本m很小,而特征维数过大,容易造成过拟合.(可以参照上面的公式).这时候可以考虑增加样本数量,或减低样本维数等.

2.训练误差很小,测试误差很大.也就是偏差很小,方差很大.考虑过拟合,减小拟合函数VC维等.

3.训练误差,测试误差都很大,考虑欠拟合,增加拟合函数的VC维.

...


还有许多许多,这部分内容还得慢慢学习归纳.

1 0
原创粉丝点击