最大似然估计详解

来源：互联网发布：淘宝货到付款怎么退款编辑：程序博客网时间：2024/05/21 02:51

1.引入概念

最大似然估计是建立在最大似然原理的基础之上。最大似然原理的直观理解是：设一个随机试验有若干个可能的结果A1,A2,...,An，在一次试验中，结果Ak出现，则一般认为实验对Ak的出现最有利，即Ak出现的概率较大。这里用到了”概率最大的事件最可能出现”的直观想法，然后对Ak出现的概率公式求极大值，这样便可解未知参数。下面用一个例子说明最大似然估计的思想方法。

假设一个服从离散型分布的总体X,不妨设X∼B(4,p)，其中参数p未知.现抽取容量为3的样本，X1,X2,X3,如果出现的样本观测值为1,2,1，此时p的取值如何估计比较合理？注：B(n,p)为二项分布，二项分布指每一次实验只有0和1两个结果，其中n表示实验次数，p表示每次结果为1的概率，概率求解公式为：
P(x=k)=Ckn∗pk∗(1−p)n−k (1.1)

考虑这样一个问题，为什么样本结果是1,2,1，而不是另外一组x1,x2,x3呢？设事件A={X1=1,X2=2,X3=1}，事件B={X1=x1,X2=x2,X3=x3},应用概率论的思想，大概率事件发生的可能性比小概率事件发生的可能性要大，即A发生的概率较大，套用公式1.1可以得出：
P(A)=C14p(1−p)3∗C24p2(1−p)2∗C14p(1−p)3=96p4(1−p)8

应该让P(A)的取值应该尽可能大。对P(A)进行求导取极值可知，当p=1/3时，P(A)取到最大值，所有有理由认为p=1/3有利于事件A发生，所有p应该取值为1/3比较合理。

2.给出似然函数定义

设X1,X2,...,Xn为来自总体X的简单随机样本，x1,x2,...,xn为样本观测值.称

L (θ) = \prod i = 1 n p (x i, θ)

为参数

θ的似然函数。其中，当总体

X为离散型随机变量时，

p(xi,θ)表示X的分布列

P{X=xi}=p(xi,θ)；当总体

X为连续性型随机变量时，

p(xi,θ)表示

X的密度函数

f(x,θ)在

xi处的取值

f(xi,θ)=p(xi,θ)。

参数θ的似然函数L(θ)实际上就是样本X1,X2,...,Xn恰好取观察值x1,x2,...,xn(或其领域)的概率。如果总体X为离散型随机变量时，
L(θ)=P{X1=x1,X2=x2,...,Xn=xn}=P{X1=x1}∗P{X2=x2}∗...∗P{Xn=xn}=

\prod i = 1 n p (x i, θ)

如果总体

X为连续性型随机变量，由于当

Δxi非常小时,

P{xi−Δxi2<Xi<xi+Δxi2}=P{xi−Δxi2<X<xi+Δxi2}=∫xi+Δxi2xi−Δxi2f(x,θ)dx≈f(xi,θ)∗Δxi

于是

P{x1−Δx12<X1<x1+Δx12,x2−Δx22<X2<x2+Δx22,...,xn−Δxn2<Xn<xn+Δxn2}=

\prod i = 1 n P {x i - Δ x i 2 < X i < x i + Δ x i 2} \approx \prod i = 1 n f (x i, θ) Δ x i = L (θ) \prod i = 1 n Δ x i

注意我们求的是样本落在区间[xi−Δxi,xi+Δxi]的概率，而不是样本落在点xi的概率，现在我们求出了落在区间的概率为

L (θ) \prod i = 1 n Δ x i

又该区间的概率应该近视等于

P{X=xi}∗Δxi,即用点

xi的发生概率代表区间平均概率密度，所以

L(θ)代表的是一组点对应的概率的乘积，即样本

X1,X2,...,Xn落在观测值

x1,x2,...,xn附近的概率。

3.最大似然估计

设

L (θ) = \prod i = 1 n p (x i, θ)

为参数

θ的似然函数，若存在一个只与样本观察值

x1,x2,...,xn有关的实数

θ^(x1,x2,...,xn),使得

L(θ^)=maxL(θ)
则称

θ^(x1,x2,...,xn)为参数

θ的最大似然估计值，称

θ^(X1,X2,...,Xn)为参数

θ的最大估计量。注意

θ^(x1,x2,...,xn)仅仅是一个实数值，后面带的

(x1,x2,...,xn)表示这个值的取值与它们有关。
由上可知，所谓最大似然估计是指通过求似然函数

L(θ)的最大(或极大)值点来估计参数

θ的一种方法。另外，最大似然估计对总体中未知参数的个数没有要求，可以求一个未知参数的最大似然估计，也可以一次求多个未知参数的最大似然估计，这个通过对多个未知参数求偏导来实现，因为多变量极值就是偏导运算。需要注意的是，似然函数

L(θ)不一定有极大值点，但是未必没有最大值点，所以对于有些问题，求导求极大值可能会失效，这时需要考虑边界点。

阅读全文

2 1