最大似然估计的一些优点

来源:互联网 发布:生意通软件手机版 编辑:程序博客网 时间:2024/06/05 00:14

最大似然估计的一些优点

主要内容:
- asymptotic correctness
- asymptotic normality
- efficiency

随机变量X服从分布p(x|θ)θ为参数。在n次独立重复实验中产生观测值x1,,xn。可以选择θ^作为θ的估计值,使似然函数L(θ^)=ni=1p(xi|θ^)达到最大值。

asymptotic correctness

随着样本数n增多,估计值θ^会最终趋向于真实值θ
使似然函数达到最大值,等价于使

1nlogL(θ^)constant
达到最大值
1nlogL(θ^)constant=1ni=1nlogp(xi|θ^)p(x|θ)logp(x|θ)dxnp(x|θ)logp(x|θ^)dxp(x|θ)logp(x|θ)dx=p(x|θ)logp(x|θ^)p(x|θ)dx=D(p(x|θ)p(x|θ^))0

所以,只有在θ^=θ时,才能取到最大值。

asymptotic normality

估计θ^=θ^(X1,,Xn)的抽样分布服从正态分布。

由于n很大,θ^很接近θ,可以对等式进行泰勒展开。(网站崩溃了。。。下面的没有保存成功。。全要重新再写一遍。。。不过发现了之前的一个错误!)

0=ddθlogL(θ^)=i=1nddθlogp(Xi|θ^)=i=1nddθlogp(Xi|θ)+(θ^θ)i=1nd2dθ2logp(Xi|θ)+O((θθ^)2)=i=1nddθlogp(Xi|θ)+(θ^θ)np(x|θ)d2dθ2logp(x|θ)dx+O((θθ^)2)=i=1nddθlogp(Xi|θ)(θ^θ)nI+O((θθ^)2)

其中I为Fisher Information
(θ^θ)=1nIi=1nddθlogp(Xi|θ)+negligibleterms

根据中心极限定理,等式右边服从正态分布N(0,1nI1)
均值:
μ=p(x|θ)(ddθlogp(x|θ))dx=ddθp(x|θ)dx=ddθp(x|θ)dx=ddθ1=0

方差:
σ2=(1nI)2nVar[ddθlogp(X|θ)]=(1nI)2np(x|θ)(ddθlogp(x|θ)μ)2dx=(1nI)2nI=1nI

因此θ^N(θ,1nI1)

efficiency

最大似然估计在所有无偏估计中具有最小方差。
根据Cramer-Rao bound:

Var(θ^)1nI

其中θ^是任意的无偏估计,I是Fisher Information
所以,最大似然估计达到了下界。
参考资料

An Introduction to Maximum Likelihood Estimation and Information Geometry

0 0