Foundation of Machine Learning 笔记第三部分——Guarantees for Finite Hypothesis Sets in Inconsistent Case

来源:互联网 发布:windows图片查看器修复 编辑:程序博客网 时间:2024/06/18 14:40

前言

注意事项:

  1. 这个系列的文章虽然题为书本《Foundation of Machine Learning》的读书笔记,但实际我是直接对书本的部分内容进行了个人翻译,如果这个行为有不妥当的地方,敬请告知。
  2. 由于知识面限制,部分名词的翻译可能存在错误,部分难以翻译的名词保留英文原词。为了防止误导大家,在这里声明本文仅供参考。
  3. 本文基本翻译自《Foundation of Machine Learning》的2.3节。

正文

在大多数情况下,假设集 H 中往往没有与训练样本一致 (consistent) 的假设。实际上在实践中,由于学习问题可能比较困难,或者 concept class 比学习算法所使用的假设集更复杂,上述情况很典型。但虽然不一致却在训练集上错误较少的假设也可以很实用,我们接下来会证明它的错误率同样能得到一定的保证。这一部分中,我们会证明不一致且假设集有限情况下的学习保证。

为了从更加通用的背景中推导学习保证,我们将使用 Hoeffding 不等式进行证明。

定理 D.1 Hoeffding 不等式

X1,,Xm 是相互独立的随机变量,且对于 i[1,m] 所有的 Xi 在区间 [ai,bi] 中取值。那么给定任意 ϵ>0,下列不等式对于样本集 Sm=mi=1Xi 成立:

Pr[SmE[Sm]ϵ]e2ϵ2/mi=1(biai)2(D.4)
Pr[SmE[Sm]ϵ]e2ϵ2/mi=1(biai)2.(D.5)

证明 Hoeffding 不等式的证明偏离了这一章的中心,请详见该书附录。

推论 2.1

固定且使 ϵ>0,用 S 指代一个大小为 m 的独立同分布假设集。然后,对于任意假设 h:X{0,1},下列不等式成立:

PrSDm[R^(h)R(h)ϵ]e2mϵ2(2.14)
PrSDm[R^(h)R(h)ϵ]e2mϵ2.(2.15)
通过 union bound,这两个单边的限制可以合并成双边的限制:
PrSDm[|R^(h)R(h)|ϵ]2e2mϵ2.(2.16)

证明 (2.14)(2.15) 均由这个系列的第一篇中的 (2.3) 及 Hoeffding 不等式可得。Union bound 的本质是不等式:
Pr[AB]=Pr[A]+Pr[B]Pr[AB]Pr[A]+Pr[B].

则推论得证。

使 (2.16) 的右侧等于 δ 并求解 ϵ 就能马上得到对于单个假设的上限。

推论 2.2 泛化限制——单一假设

固定一个假设 h:X{0,1}。那么对于任意 δ>0,下面的不等式至少有 1δ 的概率成立:

R(h)R^(h)+log2δ2m.(2.17)

证明 根据 (2.16)
PrSDm[|R^(h)R(h)|ϵ]12e2mϵ2.
使 δ=2e2mϵ2,求解 δ=2e2mϵ2 得到:
ϵ=log2δ2m.
有:
PrSDmR(h)R^(h)log2δ2mPrSDm|R^(h)R(h)|log2δ2m1δ.
证明完毕。

定理 2.2 Learning bound ——有限 H,不一致的情况

H 是一个有限的假设集,那么对于任意 δ>0,下面的不等式至少有 1δ 的几率成立:

hH,R(h)R^(h)+log|H|+log2δ2m.(2.20)

证明h1,,h|H|H 的元素。使用 union bound 以及对每个假设使用推论 2.2,可得:
=   Pr[hH|R^(h)R(h)|>ϵ]Pr[(R^(h1)R(h1)>ϵ)(R^(h|H|)R(h|H|)>ϵ)]hHPr[R^(h)R(h)>ϵ]2|H|e2mϵ2.
使右侧等于 δ 并且解 ϵ,证明完毕。

因此,对于一个有限的假设集 H

R(h)R^(h)+O(log2|H|m).
就跟前面指出的一样, log2|H| 可以解读为表示 H 所需要的二进制位数。在上一节中一致且 有限的情况下,我们得到了一些结论:样本量越大泛化效果越好,泛化误差的上限随着 |H| 升高而升高,但只是以对数级的关系上升。在这里,得到的误差上限是一个比 log2|H|m 要不利的函数——它随着这一项的开根变化而变化 (我的理解:因为 log2|H|m 比1要小,所以开根得到的值比原值要高,使得泛化性能变差)。如果我们固定 |H|,并且希望在一致和不一致的情况下获取相同的保证,那么在不一致的情况下我们需要二次于一致情况的带标签样本数。

要注意的是,这个上限告诉我们应该去权衡经验误差和假设集大小:一个大的假设集会被后者惩罚,但是也能够降低前者。但是当经验误差变化不大的时候,我们往往应该使用更小的假设集。这可以看做是所谓的奥卡姆剃刀原则 ( Ocaam’s Razor principle ) 的一个例子。

我的疑惑

定理2.2不能说明不一致的学习问题满足上一节中说到的 PAC 可学习的要求,事实上定理2.2说明的仅仅是:在样本量增多的情况下,任意一个假设的训练误差都会越来越逼近泛化误差。其实这种学习问题根本就不满足前面说到的 PAC 学习,那么它的泛化误差是否满足某种其他上限呢?答案是肯定的。

为了把 PAC 学习框架拓展到这类问题上,人们把 PAC 学习的要求放松了,定义了一种新的 PAC 学习框架:不可知 PAC 学习 ( Agnostic PAC-learning )。它的定义将在本书的下一部分被提出来,在下一篇博客中,我也会尝试去证明不一致情况学习问题满足不可知 PAC 学习。

0 0
原创粉丝点击