maximum likelihood estimation( 极大似然估计 ) - 有完整数据的参数估计

来源：互联网发布：最穷的时候知乎编辑：程序博客网时间：2024/06/07 04:08

$\$

极大似然估计

mongoo

2013-09-25

S 小城镇只有 A, B 俩咖啡店. A, B 俩咖啡店只卖'焦糖玛奇朵'和'卡布奇诺'两种. 且并不接受订单, 随机给出一杯咖啡. 小明刚来到 S 小城镇,

想喝'卡布奇诺', 你会推荐他去哪一家店?

曾有人想摸透 A, B两家店给出 '卡布奇诺'的概率, 召集了9个朋友一起轮班去两家喝咖啡, 并给出了以下7组数据

序号店铺喝到'卡布奇诺'人数1A92B53A64A85B36A97B4

他们已经喝不动了. 这时有人提出这样一个结论去 A 店随机给出一杯'卡布奇诺'的概率高.

一共去了A店4次. 一共喝到了 9 + 6 + 8 + 9 = 28杯 '卡布奇诺' 28/4 = 7, 所以在A店可以喝道 '卡布奇诺'的概率为 0.7

同理, B点可以喝道 '卡布奇诺'的概率为 0.4

所以他们推荐小明去 A 点喝咖啡.

这个科学不?

我们以数学语言去描述这一件事请.

首先, 我们使用变量 X 表示喝到'卡布奇诺'人数 Z 表示在哪个店铺喝的.

$X=(X_1,X_2,X_3,X_4,X_5),X_i\ \epsilon\ (1,2,3,4,5,6,7,8,9,10)$

$Z=(Z_1,Z_2,Z_3,Z_4,Z_5),Z_i\ \epsilon\ (A,B)$

A,B 店随机给出 '卡布奇诺'的概率分别记为 $\theta_A$ 和 $\theta_B$ .

我们的目标是通过这7组数据来估计 $\theta=(\theta_A,\theta_B)$ 的数值.

有人提出 0.7, 0.4的概率可以这样描述:

$\hat{\theta_A}=\frac{drink \ to \ 'Cappuccino' \ number \ of \ cups \ in \ the \ A}{number \ of \ times \ to \ shop \ A}=\frac{28}{4}=7$

$\hat{\theta_B}=\frac{drink \ to \ 'Cappuccino' \ number \ of \ cups \ in \ the \ B}{number \ of \ times \ to \ shop \ B}=\frac{12}{3}=4$

其实, 实际上这样的估计就是 maximum likelihood estimation ( 极大似然估计 ).

上面的事件在概率统计上可以以 $P(X,Z|\theta)$ , 参数为 $\theta$ 的 X,Z的联合概率分布来表示.

问题就变为, 求满足这样的 X,Z的 $\theta$ . 因为 X,Z 可以通过统计可得出, 如 $x^0=(9,5,6,8,3,9,4)$ , $z^0=(A,B,A,A,B,A,B)$ .

可以写成关于 $\theta$ 的函数: $l(\theta)=P(X=x^{(0)},Z=z^{(0)}|\theta)$ .

函数 $l(\theta)$ 叫做 $\theta$ 的 likelihood function (似然函数).

$\\ l(\theta) \\ = P(X=x^{(0)},Z=z^{(0)}|\theta)\\ = C_{7}^{4}P(Z=A)^4(1-P(Z=A))^3 \cdot C_{10}^{9}\theta_{A}^{9}(1-\theta_A) \cdot C_{10}^{6}\theta_{A}^{6}(1-\theta_A)^{4} \cdot C_{10}^{8}\theta_{A}^{8}(1-\theta_A)^{2} \cdot C_{10}^{9}\theta_{A}^{9}(1-\theta_A) \cdot C_{10}^{5}\theta_{B}^{5}(1-\theta_B)^{5} \cdot C_{10}^{3}\theta_{B}^{3}(1-\theta_B)^{7} \cdot C_{10}^{4}\theta_{B}^{4}(1-\theta_B)^{6}$

我们求对 $\theta$ 的偏导并令偏导数为0,

$\frac{\partial }{\partial \theta}l(\theta)=\frac{\partial }{\partial \theta}P(X=x^{(0)},Z=z^{(0)}|\theta)=0$

可以得出 $\hat{\theta_A}=0.7$ , $\hat{\theta_B}=0.4$

个人理解:

此题为例, 观察可得X,Z. 想要找出 $\theta$ ( 在A,B店喝到 '卡布奇诺'的概率 ), 且与X,Z之间有联系.

于是假设出一个函数 $l(\theta)$ , 且找出使 $l(\theta)$ 值最大的 $\theta$ .

为什么 $l(\theta)$ 要求使其最大, 这是为什么呢?

先来看一下 $\theta$ , $l(\theta)$ 具体表达意义何在.

$\theta$ 描述 : "在A,B店中喝到 '卡布奇诺'的概率",

$l(\theta)$ 描述: "在A,B店中喝到 '卡布奇诺'的概率为 $\theta$ 的概率".

但事件2 为"真实事件", 即概率为1. 所以 $l(\theta)$ 越大, 越真实.

所以求满足 $l(\theta)$ 最大的 $\theta$ .

$l(\theta)$ : likelihood function, 似然函数, 也是为一个已发生的真实事件的发生的概率函数.

因为投掷硬币中, 若投掷2次, 都出现正面. 则投掷硬币出现正面的 $l(\theta)$ 使其最大的 $\theta$ 为 1. 即 $\theta=\Pr(X=H)=1$ .

所以极大似然估计描述已发生的真实事件的发生的概率函数,对于样本大小依赖很大.

到此, 本文结束.

具体计算似然函数求偏倒为0, 看分割线之后部分.

=======================华丽的分割线=======================

有人会想计算验证, 可乍一看肯麻烦 ( 像我数学功底不好的同学 ), 好那举一个例子来计算一下, 验证上面计算所得确实是一样.

为了简化式子, 这伙人一家只去了一次, 如下

序号店铺喝到'卡布奇诺'人数1A92B5

则,

$\hat{\theta_A}=\frac{drink \ to \ 'Cappuccino' \ number \ of \ cups \ in \ the \ A}{number \ of \ times \ to \ shop \ A}=\frac{9}{1}=9$

$\hat{\theta_B}=\frac{drink \ to \ 'Cappuccino' \ number \ of \ cups \ in \ the \ B}{number \ of \ times \ to \ shop \ B}=\frac{5}{1}=5$

即A, B 两家店喝到 '卡布奇诺'的概率各为 0.9, 0.5

$\\ \frac{\partial }{\partial \theta_A}l(\theta)\\ =\frac{\partial }{\partial \theta_A}P(X=x^{(0)},Z=z^{(0)}|\theta)\\ =\frac{\partial }{\partial \theta_A}(C_2^1P(Z=A)(1-P(Z=A))\cdot C_{10}^9\theta_A^9(1-\theta_A)\cdot C_{10}^5\theta_B^5(1-\theta_B)^5)\\ =k\cdot\theta_A^8(1-\frac{1}{9}\theta_A)\\ =0$

得 $\theta_A=0.9$ , 同理 $\theta_B=0.5$