特定条件下结构风险最小化等价于最大后验概率估计得证明

来源：互联网发布：caffe安装windows 编辑：程序博客网时间：2024/05/17 07:24

机器学习的三要素为模型、策略和算法。其中策略的两种是经验风险最小化和结构风险最小化。李航老师的《统计学习方法》第9页指出“当模型是条件概率分布、损失函数是对数损失函数、模型复杂度由模型的先验概率表示时，结构风险最小化就等价于最大后验概率估计。”下面给出证明，不足不对的地方请指正。

首先给出最大后验概率的定义，引用维基百科对其的定义，有：

************************************************************

在贝叶斯统计学中，“最大后验概率估计”是后验概率分布的众数。利用最大后验概率估计可以获得对实验数据中无法直接观察到的量的点估计。它与最大似然估计中的经典方法有密切关系，但是它使用了一个增广的优化目标，进一步考虑了被估计量的先验概率分布。所以最大后验概率估计可以看作是规则化（regularization）的最大似然估计。

假设我们需要根据观察数据 $x$ 估计没有观察到的总体参数 $\theta$ ，让 $f$ 作为 $x$ 的采样分布，这样 $f(x|\theta)$ 就是总体参数为 $\theta$ 时 $x$ 的概率。函数

\theta \mapsto f(x | \theta) \!

即为似然函数，其估计

\hat{\theta}_{\mathrm{ML}}(x) = \arg\max_{\theta} f(x | \theta) \!

就是 $\theta$ 的最大似然估计。

假设 $\theta$ 存在一个先验分布 $g$ ，这就允许我们将 $\theta$ 作为贝叶斯统计（en:Bayesian statistics）中的随机变量，这样 $\theta$ 的后验分布就是：

\theta \mapsto \frac{f(x | \theta) \, g(\theta)}{\int_{\Theta} f(x | \theta') \, g(\theta') \, d\theta'} \!

其中 $\Theta$ 是 $g$ 的domain，这是贝叶斯定理的直接应用。

最大后验估计方法于是估计 $\theta$ 为这个随机变量的后验分布的众数：

\hat{\theta}_{\mathrm{MAP}}(x)= \arg\max_{\theta} \frac{f(x | \theta) \, g(\theta)} {\int_{\Theta} f(x | \theta') \, g(\theta') \, d\theta'}= \arg\max_{\theta} f(x | \theta) \, g(\theta)\!

后验分布的分母与 $\theta$ 无关，所以在优化过程中不起作用。注意当前验 $g$ 是常数函数时最大后验估计与最大似然估计重合。

************************************************************

我们对上式进行一些变换(先加上对数，再将对数展开)，则上式等价于：

进一步的，有：

可以发现，等式右边第一部分刚好为最大似然估计的公式，我们将最大似然估计的公式写出：

将最大似然估计的公式代入，然后通过增加负号将最大后验概率分布公式的max改为min。这样，最大后验概率估计的公式可以写成下面这样：

对比结构风险最小化公式：

由于f( | )是模型，可以是条件概率分布模型，那么便可以看做是对数似然损失函数，而正则化项为，调节因子为1。正则化项对应于模型的先验概率，复杂的模型小，即我们认为越复杂的模型其先验概率越小，那么复杂的模型其就越大，很好的扮演了正则化项的角色。结构风险最小化就是为了在似然尽可能大的情况下避免模型太过复杂。所以得证。

2 1