Foundation of Machine Learning 笔记第三部分——Guarantees for Finite Hypothesis Sets in Inconsistent Case

来源：互联网发布：windows图片查看器修复编辑：程序博客网时间：2024/06/18 14:40

前言

注意事项：

这个系列的文章虽然题为书本《Foundation of Machine Learning》的读书笔记，但实际我是直接对书本的部分内容进行了个人翻译，如果这个行为有不妥当的地方，敬请告知。
由于知识面限制，部分名词的翻译可能存在错误，部分难以翻译的名词保留英文原词。为了防止误导大家，在这里声明本文仅供参考。
本文基本翻译自《Foundation of Machine Learning》的2.3节。

正文

在大多数情况下，假设集 H 中往往没有与训练样本一致 (consistent) 的假设。实际上在实践中，由于学习问题可能比较困难，或者 concept class 比学习算法所使用的假设集更复杂，上述情况很典型。但虽然不一致却在训练集上错误较少的假设也可以很实用，我们接下来会证明它的错误率同样能得到一定的保证。这一部分中，我们会证明不一致且假设集有限情况下的学习保证。

为了从更加通用的背景中推导学习保证，我们将使用 Hoeffding 不等式进行证明。

定理 D.1 Hoeffding 不等式

X1,…,Xm 是相互独立的随机变量，且对于 i∈[1,m] 所有的 Xi 在区间 [ai,bi] 中取值。那么给定任意 ϵ>0，下列不等式对于样本集 Sm=∑mi=1Xi 成立：

P r [S m - E [S m] \geq ϵ] \leq e - 2 ϵ 2 / \sum m i = 1 (b i - a i) 2 (D.4)

P r [S m - E [S m] \leq - ϵ] \leq e - 2 ϵ 2 / \sum m i = 1 (b i - a i) 2 . (D.5)

证明 Hoeffding 不等式的证明偏离了这一章的中心，请详见该书附录。

推论 2.1

固定且使 ϵ>0，用 S 指代一个大小为 m 的独立同分布假设集。然后，对于任意假设 h:X→{0,1}，下列不等式成立：

P r S \sim D m [R^(h) - R (h) \geq ϵ] \leq e - 2 m ϵ 2 (2.14)

P r S \sim D m [R^(h) - R (h) \leq - ϵ] \leq e - 2 m ϵ 2 . (2.15)

通过 union bound，这两个单边的限制可以合并成双边的限制：

P r S \sim D m [| R^(h) - R (h) | \geq ϵ] \leq 2 e - 2 m ϵ 2 . (2.16)

证明

(2.14) 和

(2.15) 均由这个系列的第一篇中的

(2.3) 及 Hoeffding 不等式可得。Union bound 的本质是不等式：

P r [A \lor B] = P r [A] + P r [B] - P r [A \land B] \leq P r [A] + P r [B] .

则推论得证。

使 (2.16) 的右侧等于 δ 并求解 ϵ 就能马上得到对于单个假设的上限。

推论 2.2 泛化限制——单一假设

固定一个假设 h:X→{0,1}。那么对于任意 δ>0，下面的不等式至少有 1−δ 的概率成立：

R (h) \leq R^(h) + log 2 δ 2 m - - - - - \sqrt . (2.17)

证明根据

(2.16) 得

P r S \sim D m [| R^(h) - R (h) | \leq ϵ] \geq 1 - 2 e - 2 m ϵ 2 .

使

δ=2e−2mϵ2，求解

δ=2e−2mϵ2 得到：

ϵ = log 2 δ 2 m - - - - - \sqrt .

有：

P r S \sim D m ⎡ ⎣ R (h) - R^(h) \leq log 2 δ 2 m - - - - - \sqrt ⎤ ⎦ \geq P r S \sim D m ⎡ ⎣ | R^(h) - R (h) | \leq log 2 δ 2 m - - - - - \sqrt ⎤ ⎦ \geq 1 - δ .

证明完毕。

定理 2.2 Learning bound ——有限 H，不一致的情况

设H 是一个有限的假设集，那么对于任意 δ>0，下面的不等式至少有 1−δ 的几率成立：

\forall h \in H, R (h) \leq R^(h) + log | H | + log 2 δ 2 m - - - - - - - - - - - - \sqrt . (2.20)

证明设

h1,…,h|H| 为

H 的元素。使用 union bound 以及对每个假设使用推论 2.2，可得：

= \leq \leq P r [\exists h \in H ， | R^(h) - R (h) | > ϵ] P r [(∣ ∣ R^(h 1) - R (h 1) ∣ ∣ > ϵ) \lor \dots \lor (∣ ∣ R^(h | H |) - R (h | H |) ∣ ∣ > ϵ)] \sum h \in H P r [∣ ∣ R^(h) - R (h) ∣ ∣ > ϵ] 2 | H | e - 2 m ϵ 2 .

使右侧等于

δ 并且解

ϵ，证明完毕。

因此，对于一个有限的假设集 H，

R (h) \leq R^(h) + O (log 2 | H | m - - - - - - - \sqrt) .

就跟前面指出的一样，

log2|H| 可以解读为表示

H 所需要的二进制位数。在上一节中一致且有限的情况下，我们得到了一些结论：样本量越大泛化效果越好，泛化误差的上限随着

|H| 升高而升高，但只是以对数级的关系上升。在这里，得到的误差上限是一个比

log2|H|m 要不利的函数——它随着这一项的开根变化而变化 (我的理解：因为

log2|H|m 比1要小，所以开根得到的值比原值要高，使得泛化性能变差)。如果我们固定

|H|，并且希望在一致和不一致的情况下获取相同的保证，那么在不一致的情况下我们需要二次于一致情况的带标签样本数。

要注意的是，这个上限告诉我们应该去权衡经验误差和假设集大小：一个大的假设集会被后者惩罚，但是也能够降低前者。但是当经验误差变化不大的时候，我们往往应该使用更小的假设集。这可以看做是所谓的奥卡姆剃刀原则 ( Ocaam’s Razor principle ) 的一个例子。

我的疑惑

定理2.2不能说明不一致的学习问题满足上一节中说到的 PAC 可学习的要求，事实上定理2.2说明的仅仅是：在样本量增多的情况下，任意一个假设的训练误差都会越来越逼近泛化误差。其实这种学习问题根本就不满足前面说到的 PAC 学习，那么它的泛化误差是否满足某种其他上限呢？答案是肯定的。

为了把 PAC 学习框架拓展到这类问题上，人们把 PAC 学习的要求放松了，定义了一种新的 PAC 学习框架：不可知 PAC 学习 ( Agnostic PAC-learning )。它的定义将在本书的下一部分被提出来，在下一篇博客中，我也会尝试去证明不一致情况学习问题满足不可知 PAC 学习。

0 0