DeepLearning学习笔记——极大似然估计

来源：互联网发布：手机如何开网店淘宝店编辑：程序博客网时间：2024/06/05 22:40

简介
- 条件对数似然和均方误差
- 最大似然的性质

一般提到估计，我们首先想到的是通过输入，估计输出。这时，有很多准则，比如偏差和方差来帮我们估计。然而有时候，我们希望有些方法可以让我们估计输入到输出的函数（当函数模型确定时，就是估计函数的参数）。这些函数由于模型和参数的不同而不同，它们组成了在机器学习中常说的函数空间。极大似然估计就可以帮我们从函数空间中选定特定的函数作为好的估计简单来说，就对于y=f(x|θ)，通过x和y估计f和θ(或在f确定时，估计θ)。

简介

考虑一组含有m个样本的数据集X={x(1),...,x(m)}，独立地由未知的真实数据生成分布pdata(x)生成。PS:统计学中，一般都假设样本为独立同分布。

既然样本中存在隐含分布pdata(x)，那么该分布就可以通过隐含的参数θ完整表达。pmodel(x;θ)就是一簇由θ确定在相同空间上的概率分布。换言之，pmodel(x;θ)将任意输入x映射到实数来估计真实概率pdata(x)。

开始公式推导↓↓

对独立同分布的样本，生成样本集X的概率如下：

p m o d e l (X; θ) = \prod i = 1 m p m o d e l (x (i); θ)

对θ的最大似然估计被定义为：

θ M L = arg max θ p m o d e l (X; θ) = arg max θ \prod i = 1 m p m o d e l (x (i); θ)

多个概率的乘积公式会因很多原因不便于计算。例如，计算中很可能会因为多个过小的数值相乘而出现数值下溢。为了得到一个便于计算的等价优化问题，我们观察到似然对数不会改变其argmax但是将成绩转化成了便于计算的求和形式：

θ M L = arg max θ \sum i = 1 m l o g p m o d e l (x (i); θ)

因为当我们重新缩放代价函数时argmax不会改变，我们可以乘以m得到和训练数据经验分布pˆdata相关的期望作为准则：

θ M L = arg max θ E x \sim p ˆ d a t a l o g p m o d e l (x (i); θ)

最后通过对上式取偏导等于0就可以获得参数θ的极大似然估计。

一种解释最大似然估计的观点是将它看作最小化训练集上的经验分布pˆdata和模型分部之间的差异，两者之间的差异程度可以通过KL散度度量。KL散度被定义为：

D K L (p ˆ d a t a | | p m o d e l) = E x \sim p ˆ d a t a [l o g p ˆ d a t a (x) - l o g p m o d e l (x)]

左边一项仅涉及到数据生成过程，和模型无关。这意味着当我们训练模型最小化KL散度时，我们只需要最小化Ex∼pˆdata[−logpmodel(x)]，当然，这和上上式中最大化是相同的。
最小化KL散度其实就是在最小化分布之间的交叉熵。许多作者使用术语“交叉熵”特定表示伯努利或softmax分布的负对数似然，但那是用词不当的。任何一个由负对数似然组成的损失都是定义在训练集上的经验分布和定义在模型上的概率分布之间的交叉熵。例如，均方误差是经验分布和高斯模型之间的交叉熵。
我们可以将最大似然看作是使模型分布尽可能和经验分布pˆdata相匹配的尝试。理想情况下，我们希望匹配真是的数据生成分布pdata，但我们没法直接知道这个分布。
虽然最有θ在最大化似然或是最小化KL散度时是相同的，但目标函数值是不一样的。在软件中，我们通常将两者都成为最小化代价函数。因此最大化似然变成了最小化负对数似然（NLL)，或者等价的是最小化交叉熵。将最大化似然看作最小化KL散度的视角在这个情况下是有帮助的，因此已知KL散度最小值是零。当x取实数时，负对数似然是负值。

条件对数似然和均方误差

最大似然估计很容易扩展到估计条件概率P(y|x;θ)，从而给定x预测y。实际上这是最常见的情况，因为这构成了大多数监督学习的基础。如果X表示所有的输入，Y表示我们观测到的目标，那么条件最大似然估计是：
θML=argmaxθP(Y|X;θ)
如果假设样本是独立同分布的，那么这可以分解成
θML=argmaxθ∑mi=1logP(y(i)|x(i);θ)

最大似然的性质

最大似然估计最吸引人的地方在于，它被证明当样本数目m→∞时，就收敛率而言是最好的渐进估计。在合适的条件下，最大似然估计具有一致性，意味着训练样本数据趋向于无穷大时，参数的最大似然估计会收敛到参数的真实值。这些条件是：

真实分布pdata必须在模型族pmodel(⋅;θ)中。否则，没有估计可以还原pdata。
真实分布pdata必须刚好对应一个θ值。否则，最大似然估计恢复出真实分布pdata后，也不能决定数据生成过程使用哪个θ。

除了最大似然估计，还有其他的归纳准则，其中许多共享一致估计的性质。然而，一致估计的统计效率可能区别很大。某些一致估计可能在固定数目的样本上获得一个较低的泛化误差，或者等价地，可能只需要较少的样本就能达到一个固定程度的泛化误差。
统计效率通常用于有参情况(parametric case)的研究中(例如线性回归)。有参情况中我们的目标是估计参数值(假设有可能确定真实参数),而不是函数值。一种度量我们和真实参数相差多少的方法是计算均方误差的期望,即计算 m 个从数据生成分布中出来的训练样本上的估计参数和真实参数之间差值的平方。有参均方误差估计随着 m 的增加而减少,当 m 较大时,Cramér-Rao 下界 (Rao, 1945; Cramér,1946) 表明不存在均方误差低于最大似然估计的一致估计。
因为这些原因(一致性和统计效率),最大似然通常是机器学习中的首选估计。当样本数目小到会发生过拟合时,正则化策略如权重衰减可用于获得训练数据有限时方差较小的最大似然有偏版本。

阅读全文

0 0