最大似然估计的一些优点

来源：互联网发布：生意通软件手机版编辑：程序博客网时间：2024/06/05 00:14

主要内容：
- asymptotic correctness
- asymptotic normality
- efficiency

随机变量X服从分布p(x|θ)，θ为参数。在n次独立重复实验中产生观测值x1,⋯,xn。可以选择θ^作为θ的估计值，使似然函数L(θ^)=∏ni=1p(xi|θ^)达到最大值。

asymptotic correctness

随着样本数n增多，估计值θ^会最终趋向于真实值θ。
使似然函数达到最大值，等价于使

1 n log L (θ^) - c o n s t a n t

达到最大值

1 n log L (θ^) - c o n s t a n t = 1 n \sum i = 1 n log p (x i | θ^) - \int p (x | θ) log p (x | θ) d x ⟶ n \to \infty \int p (x | θ) log p (x | θ^) d x - \int p (x | θ) log p (x | θ) d x = \int p (x | θ) log p ( x | θ ^ ) p ( x | θ ) d x = - D (p (x | θ) ∥ p (x | θ^)) \leq 0

所以，只有在

θ^=θ时，才能取到最大值。

估计θ^=θ^(X1,⋯,Xn)的抽样分布服从正态分布。

由于n很大，θ^很接近θ，可以对等式进行泰勒展开。（网站崩溃了。。。下面的没有保存成功。。全要重新再写一遍。。。不过发现了之前的一个错误！）

0 = d d θ log L (θ^) = \sum i = 1 n d d θ log p (X i | θ^) = \sum i = 1 n d d θ log p (X i | θ) + (θ^- θ) \sum i = 1 n d 2 d θ 2 log p (X i | θ) + O ((θ - θ^) 2) = \sum i = 1 n d d θ log p (X i | θ) + (θ^- θ) n \int p (x | θ) d 2 d θ 2 log p (x | θ) d x + O ((θ - θ^) 2) = \sum i = 1 n d d θ log p (X i | θ) - (θ^- θ) n I + O ((θ - θ^) 2)

其中

I为Fisher Information

(θ^- θ) = 1 n I \sum i = 1 n d d θ log p (X i | θ) + n e g l i g i b l e t e r m s

根据中心极限定理，等式右边服从正态分布

N(0,1nI−1)
均值：

μ = \int p (x | θ) (d d θ log p (x | θ)) d x = \int d d θ p (x | θ) d x = d d θ \int p (x | θ) d x = d d θ 1 = 0

方差：

σ 2 = (1 n I) 2 n V a r [d d θ log p (X | θ)] = (1 n I) 2 n \int p (x | θ) (d d θ log p (x | θ) - μ) 2 d x = (1 n I) 2 n I = 1 n I

因此

θ^∼N(θ,1nI−1)

最大似然估计在所有无偏估计中具有最小方差。
根据Cramer-Rao bound：

V a r (θ^) \geq 1 n I

其中

θ^是任意的无偏估计，

I是Fisher Information
所以，最大似然估计达到了下界。
参考资料

An Introduction to Maximum Likelihood Estimation and Information Geometry

0 0