最大似然函数

来源：互联网发布：java培优班教哪些内容编辑：程序博客网时间：2024/05/18 00:14

似然函数

似然函数在给定参数的条件下就是观测到一组数据概率密度函数（连续分布）或概率聚集函数（离散分布）

在统计学中，似然函数（likelihood function，通常简写为likelihood，似然）是一个非常重要的内容，在非正式场合似然和概率（Probability）几乎是一对同义词，但是在统计学中似然和概率却是两个不同的概念。概率是在特定环境下某件事情发生的可能性，也就是结果没有产生之前依据环境所对应的参数来预测某件事情发生的可能性，比如抛硬币，抛之前我们不知道最后是哪一面朝上，但是根据硬币的性质我们可以推测任何一面朝上的可能性均为50%，这个概率只有在抛硬币之前才是有意义的，抛完硬币后的结果便是确定的；而似然刚好相反，是在确定的结果下去推测产生这个结果的可能环境（参数），还是抛硬币的例子，假设我们随机抛掷一枚硬币1,000次，结果500次人头朝上，500次数字朝上（实际情况一般不会这么理想，这里只是举个例子），我们很容易判断这是一枚标准的硬币，两面朝上的概率均为50%，这个过程就是我们根据结果来判断这个事情本身的性质（参数），也就是似然。

最大似然估计原理

最大似然估计是一种统计方法，最大似然估计的思想就是最大似然函数取什么样的参数才能使我们观测到目前这组数据的概率是最大的。而似然描述的是结果已知的情况下，该事件在不同条件下发生的可能性，似然函数的值越大说明该事件在对应的条件下发生的可能性越大。

最大似然原理解决的问题

已知该事件的结果，以及事件的概率密度函数（连续分布）或概率聚集函数（离散分布）。求此函数的参数。（在此参数下，该事件发生的可能性最大）。

举例说明

离散分布，离散有限参数空间

考虑一个抛硬币的例子。假设这个硬币正面跟反面轻重不同。我们把这个硬币抛80次（即，我们获取一个采样x1=H,x2=T,…,x80=T并把正面的次数记下来，正面记为H，反面记为T）。并把抛出一个正面的概率记为p，抛出一个反面的概率记为1 − p（因此，这裡的p即相当于上边的θ）。假设我们抛出了49个正面，31个反面，即49次H，31次T。假设这个硬币是我们从一个装了三个硬币的盒子里头取出的。这三个硬币抛出正面的概率分别为p = 1 / 3, p = 1 / 2, p = 2 / 3.这些硬币没有标记，所以我们无法知道哪个是哪个。使用最大似然估计，通过这些试验数据（即采样数据），我们可以计算出哪个硬币的可能性最大。这个似然函数取以下三个值中的一个：
P(H=49, T=31 ∣p=1/3)=(8049)(1/3)49(1−1/3)31≈0.000
P(H=49, T=31 ∣p=1/2)=(8049)(1/2)49(1−1/2)31≈0.012
P(H=49, T=31 ∣p=2/3)=(8049)(2/3)49(1−2/3)31≈0.054

我们可以看到当pˆ=2/3时，似然函数取得最大值。这就是p的最大似然估计。

连续分布

现在假设例子1中的盒子中有无数个硬币，对于0≤p≤1中的任何一个p，都有一个抛出正面概率为p的硬币对应，我们来求其似然函数的最大值：
lik(θ)=fD(H=49,T=80-49∣p)=(8049)p49(1−p)31

其中0≤p≤1. 我们可以使用微分法来求最值。方程两边同时对p取微分，并使其为零。
0=ddp((8049)p49(1−p)31)

=49p48(1−p)31−31p49(1−p)30

=p48(1−p)30[49(1−p)−31p]

其解为p = 0, p = 1，以及p = 49 / 80.使可能性最大的解显然是p = 49 / 80（因为p = 0和p = 1这两个解会使可能性为零）。因此我们说最大似然估计值为pˆ=49/80.

连续分布，连续参数空间

最常见的连续概率分布是正态分布，其概率密度函数如下：
f(x∣μ,σ2)=12πσ2√e−(x−μ)22σ2
现在有n个正态随机变量的采样点，要求的是一个这样的正态分布，这些采样点分布到这个正态分布可能性最大（也就是概率密度积最大，每个点更靠近中心点），其n个正态随机变量的采样的对应密度函数（假设其独立并服从同一分布）为：
f(x1,…,xn∣μ,σ2)=(12πσ2)n2e−∑ni=1(xi−μ)22σ2
或：
f(x1,…,xn∣μ,σ2)=(12πσ2)n/2exp(−∑ni=1(xi−x¯)2+n(x¯−μ)22σ2),
这个分布有两个参数：μ,σ2.有人可能会担心两个参数与上边的讨论的例子不同，上边的例子都只是在一个参数上对可能性进行最大化。实际上，在两个参数上的求最大值的方法也差不多：只需要分别把可能性lik(μ,σ)=f(x1,,…,xn∣μ,σ2)在两个参数上最大化即可。当然这比一个参数麻烦一些，但是一点也不复杂。使用上边例子同样的符号，我们有θ=(μ,σ2).
最大化一个似然函数同最大化它的自然对数是等价的。因为自然对数log是一个连续且在似然函数的值域内严格递增的上凸函数。[注意：可能性函数（似然函数）的自然对数跟信息熵以及Fisher信息联系紧密。]求对数通常能够一定程度上简化运算，比如在这个例子中可以看到：
0=∂∂μlog((12πσ2)n2e−∑ni=1(xi−x¯)2+n(x¯−μ)22σ2)

=∂∂μ(log(12πσ2)n2−∑ni=1(xi−x¯)2+n(x¯−μ)22σ2)

=0−−2n(x¯−μ)2σ2
这个方程的解是μˆ=x¯=∑ni=1xi/n.这的确是这个函数的最大值，因为它是μ里头惟一的一阶导数等于零的点并且二阶导数严格小于零。
同理，我们对σ求导，并使其为零。
0=∂∂σlog((12πσ2)n2e−∑ni=1(xi−x¯)2+n(x¯−μ)22σ2)
=∂∂σ(n2log(12πσ2)−∑ni=1(xi−x¯)2+n(x¯−μ)22σ2)
=−nσ+∑ni=1(xi−x¯)2+n(x¯−μ)2σ3
这个方程的解是σˆ2=∑ni=1(xi−μˆ)2/n.

因此，其关于θ=(μ,σ2)的最大似然估计为：

θˆ=(μˆ,σˆ2)=(x¯,∑ni=1(xi−x¯)2/n).

性质

泛函不变性（Functional invariance）

如果θˆ是θ的一个最大似然估计，那么α = g(θ)的最大似然估计是αˆ=g(θˆ).函数g无需是一个一一映射。请参见George Casella与Roger L. Berger所著的Statistical Inference定理Theorem 7.2.10的证明。（中国大陆出版的大部分教材上也可以找到这个证明。）

渐近线行为

最大似然估计函数在采样样本总数趋于无穷的时候达到最小方差（其证明可见于Cramer-Rao lower bound）。
当最大似然估计非偏时，等价的，在极限的情况下我们可以称其有最小的均方差。对于独立的观察来说，最大似然估计函数经常趋于正态分布。

偏差

最大似然估计的偏差是非常重要的。考虑这样一个例子，标有1到n的n张票放在一个盒子中。从盒子中随机抽取票。如果n是未知的话，那么n的最大似然估计值就是抽出的票上标有的n，尽管其期望值的只有(n + 1) / 2.为了估计出最高的n值，我们能确定的只能是n值不小于抽出来的票上的值。

参见

均方差是衡量一个估计函数的好坏的一个量。
关于Rao-Blackwell定理（Rao-Blackwell theorem）的文章里头讨论到如何利用Rao-Blackwellisation过程寻找最佳非偏估计（即使均方差最小）的方法。而最大似然估计通常是一个好的起点。
读者可能会对最大似然估计（如果存在）总是一个关于参数的充分统计（sufficient statistic）的函数感兴趣。
最大似然估计跟一般化矩方法（generalized method of moments）有关。

阅读全文

0 0