泛化误差上界的证明,说明机器能进行学习和预测的基本原理。

来源:互联网 发布:java调用通用短信接口 编辑:程序博客网 时间:2024/06/05 16:49

通过简单的泛化误差上界的证明,说明机器能进行学习和预测的基本原理。

直观的理解


在有限的训练数据中得到一个规律,认为总体也是近似这个规律的,那么就能用这个规律进行预测。比如一个大罐子里装满了红球和白球,各一半,我随手抓了一把,然后根据这些红球白球的比例预测整个罐子也是这样的比例,这样做不一定很准确,但结果总是近似的,而且如果抓出的球越多,预测结果也就越可信。

上面的例子可以简单直观地理解一下预测的原理,其实还可以通过统计的方法对这个近似(用局部的规律近似总体的规律)的可信度进行概率分析。

将问题描述成更数学的形式:


  • 损失函数(loss function)或者代价函数(cost function)度量预测错误的程度,记作L(Y,f(x))L(Y,f(x))
  • 期望损失(expected loss),即平均意义下的损失:
    Rexp(f)=Ep[L(Y,f(X))]=X×YL(y,f(x))P(x,y)dxdyRexp(f)=Ep[L(Y,f(X))]=∫X×YL(y,f(x))P(x,y)dxdy
  • 经验损失(empirical loss),是关于训练数据集的平均损失:
    Remp(f)=1Ni=1NL(yi,f(xi))Remp(f)=1N∑i=1NL(yi,f(xi))
  • 根据大数定理,样本容量NN趋近无穷时,经验风险趋近于期望风险:Remp(f)Rexp(f)Remp(f)≈Rexp(f),也就是说:如果模型在训练样本中的期望风险很小,那么它也能使得期望风险很小。
  • 但是当样本容量NN不是无穷大的时候怎么办?

泛化误差上界(定理):


对二分类问题,当假设空间是有限个函数集合\mathcal F=\left \\{ f_1,f_2,\cdot \cdot \cdot ,f_d \right \\}\mathcal F=\left \\{ f_1,f_2,\cdot \cdot \cdot ,f_d \right \\}时,对任意一个函数fFf∈F,至少以概率1σ1−σ,以下不等式成立:

R(f)R^(f)+ε(d,N,δ)R(f)⩽R^(f)+ε(d,N,δ)

其中,
ε(d,N,δ)=12N(logd+log1δ)ε(d,N,δ)=12N(log⁡d+log⁡1δ)

不等式左端R(f)R(f)是泛化误差,右端为泛化误差上界。泛化误差上界中,第一项是训练误差,训练误差越小,泛化误差也越小。第二项ε(d,N,δ)ε(d,N,δ)NN越大,值越小,假设空间FF 包含的函数越多,值越大。

这个定理可以从概率上说明使用经验风险近似期望风险的可信度,它与样本数量以及假设空间的复杂度有关。

上述定理可通过Hoeffding不等式来证明:


Hoeffding不等式:
Hoeffding不等式适用于有界的随机变量。设有两两独立的一系列随机变量X1,...,XnX1,...,Xn。假设对所有的1in1⩽i⩽nXiXi都是几乎有界的变量,即满足P(Xi[ai,bi])=1P(Xi∈[ai,bi])=1,那么这nn个随机变量的经验期望:X¯=X1++XnnX¯=X1+⋅⋅⋅+Xnn满足以下不等式:

P(X¯E[X¯]t)exp(2t2n2ni=1(biai)2)P(X¯−E[X¯]≥t)≤exp⁡(−2t2n2∑i=1n(bi−ai)2)

P(X¯E[X¯]t)2exp(2t2n2ni=1(biai)2)P(|X¯−E[X¯]|≥t)≤2exp(−2t2n2∑i=1n(bi−ai)2)


对任意函数fFf∈FR^(f)R^(f) 是NN个独立随机变量L(Y,f(X))L(Y,f(X))的样本均值(经验期望),R(f)R(f)是期望,如果损失函数取之区间为[0, 1],则根据上述Hoeffding不等式,得到:

P(R(f)R^(f)ε)exp(2Nϵ2)P(R(f)−R^(f)⩾ε)⩽exp⁡(−2Nϵ2)

由于F={f1,f2,...,fd}F={f1,f2,...,fd}是一个有限集合,容易得到:
P(R(f)R^(f)ε)dexp(2Nϵ2)P(R(f)−R^(f)⩾ε)⩽dexp⁡(−2Nϵ2)


δ=dexp(2Nε2)δ=dexp⁡(−2Nε2)

然后就得到了:
P(R(f)<R^(f)+ε)1δP(R(f)<R^(f)+ε)⩾1−δ

上面的讨论只是假设空间包含有限个函数的情况下的泛化误差上界,对于一般的假设空间要找到泛化误差界应该就没这么简单了。




(注:本文为读书笔记与总结,侧重算法原理,来源为《统计学习方法》一书第一章)


作者:rubbninja
出处:http://www.cnblogs.com/rubbninja/
关于作者:目前主要研究领域为机器学习与无线定位技术,欢迎讨论与指正!

阅读全文
0 0
原创粉丝点击