泛化误差上界的证明，说明机器能进行学习和预测的基本原理。

来源：互联网发布：java调用通用短信接口编辑：程序博客网时间：2024/06/05 16:49

通过简单的泛化误差上界的证明，说明机器能进行学习和预测的基本原理。

直观的理解

在有限的训练数据中得到一个规律，认为总体也是近似这个规律的，那么就能用这个规律进行预测。比如一个大罐子里装满了红球和白球，各一半，我随手抓了一把，然后根据这些红球白球的比例预测整个罐子也是这样的比例，这样做不一定很准确，但结果总是近似的，而且如果抓出的球越多，预测结果也就越可信。

上面的例子可以简单直观地理解一下预测的原理，其实还可以通过统计的方法对这个近似（用局部的规律近似总体的规律）的可信度进行概率分析。

损失函数（loss function）或者代价函数（cost function）度量预测错误的程度，记作L(Y,f(x))。
期望损失（expected loss），即平均意义下的损失：
$R e x p (f) = E p [L (Y, f (X))] = \int X \times Y L (y, f (x)) P (x, y) d x d y$
经验损失（empirical loss），是关于训练数据集的平均损失：
$R e m p (f) = 1 N \sum i = 1 N L (y i, f (x i))$
根据大数定理，样本容量N趋近无穷时，经验风险趋近于期望风险：Remp(f)≈Rexp(f)，也就是说：如果模型在训练样本中的期望风险很小，那么它也能使得期望风险很小。
但是当样本容量N不是无穷大的时候怎么办？

对二分类问题，当假设空间是有限个函数集合\mathcal F=\left \\{ f_1,f_2,\cdot \cdot \cdot ,f_d \right \\}时，对任意一个函数f∈F，至少以概率1−σ，以下不等式成立：

R (f) ⩽ R^(f) + ε (d, N, δ)

其中，

ε (d, N, δ) = 1 2 N (log d + log 1 δ) - - - - - - - - - - - - - - - - \sqrt

不等式左端R(f)R(f)是泛化误差，右端为泛化误差上界。泛化误差上界中，第一项是训练误差，训练误差越小，泛化误差也越小。第二项ε(d,N,δ)ε(d,N,δ)，NN越大，值越小，假设空间FF 包含的函数越多，值越大。

这个定理可以从概率上说明使用经验风险近似期望风险的可信度，它与样本数量以及假设空间的复杂度有关。

Hoeffding不等式：
Hoeffding不等式适用于有界的随机变量。设有两两独立的一系列随机变量X1,...,Xn。假设对所有的1⩽i⩽n，Xi都是几乎有界的变量，即满足P(Xi∈[ai,bi])=1，那么这n个随机变量的经验期望：X¯=X1+⋅⋅⋅+Xnn满足以下不等式：

P (X ¯ - E [X ¯] \geq t) \leq exp (- 2 t 2 n 2 \sum n i = 1 ( b i - a i ) 2)

P (∣ ∣ X ¯ - E [X ¯] ∣ ∣ \geq t) \leq 2 e x p (- 2 t 2 n 2 \sum n i = 1 ( b i - a i ) 2)

对任意函数f∈F，R^(f) 是N个独立随机变量L(Y,f(X))的样本均值（经验期望），R(f)是期望，如果损失函数取之区间为[0, 1]，则根据上述Hoeffding不等式，得到：

P (R (f) - R^(f) ⩾ ε) ⩽ exp (- 2 N ϵ 2)

由于F={f1,f2,...,fd}F={f1,f2,...,fd}是一个有限集合，容易得到：

P (R (f) - R^(f) ⩾ ε) ⩽ d exp (- 2 N ϵ 2)

令

δ = d exp (- 2 N ε 2)

然后就得到了：

P (R (f) < R^(f) + ε) ⩾ 1 - δ

上面的讨论只是假设空间包含有限个函数的情况下的泛化误差上界，对于一般的假设空间要找到泛化误差界应该就没这么简单了。

(注：本文为读书笔记与总结，侧重算法原理，来源为《统计学习方法》一书第一章)

作者：rubbninja
出处：http://www.cnblogs.com/rubbninja/
关于作者：目前主要研究领域为机器学习与无线定位技术，欢迎讨论与指正！

阅读全文

0 0