人工智能里的数学修炼 | 模型参数求解：极大似然估计

来源：互联网发布：网络写作大神编辑：程序博客网时间：2024/06/05 17:54

极大似然估计（maximum likelihood estimation,mle）方法最初由德国数学家高斯提出，但这个方法通常被归功于英国统计学家罗纳德·菲舍尔。他在1992年的论文On the mathematical foundations of theoretical statistics, reprinted in Contributions to Mathematical Statistics总结了极大似然估计，极大似然估计的名字也是费舍尔给的。1950年 J. Wiley & Sons 中再次提出了这个思想，并且首先探讨了这种方法的一些性质，目前，这仍然是一种得到广泛应用的参数估计方法

一、极大似然估计原理
二、极大似然的数学模型与求解

一、极大似然估计原理

极大似然估计提供了一种给定观察数据来评估模型参数的方法，即“模型已知，参数未知“。其直接原理是：一个随机试验如果有若干个可能的结果A，B，C，…,若在一次实验中，结果A出现了，那么可以认为实验条件对A的出现有利，即A事件发生的概率P(A)较大。

举一个简单的例子：
设甲箱中有99个白球，1个黑球；乙箱中有1个白球，99个黑球。现随机取出一个箱子，再从抽取的一箱中随机取出一球，结果是黑球，我们知道，这一球是从乙箱抽取的概率比从甲箱中抽取的概率大的多，这时我们自然更多的愿意相信这个黑球是取自乙箱的。
更一般的来说，若事件A的发生概率与某一未知参数 θ 有关， θ 取值不同，则事件A发生的概率 P(A|θ) 也不同，当我们在一次试验中，若事件A发生了，则此时认为 θ 值应是一切可能取值中使 P(A|θ) 最大的那一个，极大似然估计法就是要选取这样的值作为参数的估计值

极大似然估计，是概率论在统计学中的应用，它是参数估计的方法之一。说的是已知某个随机样本满足某种概率分布，但是其中具体的参数不清楚，参数估计就是通过若干次试验，观察其结果，利用结果推出参数的大概值。极大似然估计是建立在这样的思想上：已知某个参数能使这个样本出现的概率最大，我们当然不会再去选择其他小概率的样本，所以干脆就把这个参数作为估计的真实值。
极大似然估计一个很重要的假设是：所有采样都是独立同分布的

二、极大似然的数学模型与求解

极大似然估计的一般求解步骤为：
（1）写出似然函数
（2）取平均对数似然函数
（3）求解似然估计值
现在我们分步来介绍

2.1 列出似然函数

首先，假设 x1,x2,...,xn 为独立同分布的采样， θ为模型参数，f 为我们所用的模型。则参数为 θ 的模型 f 产生上述采样可表示为

f(x1,x2,...,xn|θ)=f(x1|θ)×f(x2|θ)×···×f(xn|θ)
此时，我们已知的为

x1,x2,...,xn，未知的为

θ。现定义似然函数为

L(θ|x1,x2,...,xn)=f(x1,x2,...,xn|θ)=∏ni=1f(xi|θ)

2.2 取平均对数似然函数

在实际应用中我们通常将似然函数取对数

lnL(θ|x1,x2,...,xn)=∑ni=1lnf(xi|θ)
我们称上式中的

lnL 为对数似然函数，

L¯=1nlnL 为平均对数似然，而我们平时所称的对数似然为最大的平均对数似然,即

θ¯mle=argmaxL¯(θ|x1,x2,...,xn)

选择似然函数在观测值最大处的那个参数值作为 θ 的估计。以上为离散型随机变量的极大似然估计，若总体为连续性，则可以使用其概率密度函数构建似然函数。
极大似然估计法的原理就是固定样本观测值 (x1,x2,...,xn) ，挑选参数 θ 使

L(x1,x2,..,xn|θ¯)=maxL(x1,x2,..,xn|θ)
这样得到的

θ¯ 与样本值有关，

θ¯(x1,x2,...,xn)称为参数

θ 的极大似然估计值

2.3 求解似然估计值

现在我们已经列出了似然方程，问题在于如何把参数 θ 的极大似然估计值 θ¯求出。在大多数场合下，我们可以通过用平均对数似然方程对 θ 求导从而获得极值点，即求解

∂lnL¯(θ)∂θ=0
通过极大似然法估计参数的特点在于，它相对于其他估计方法更为简单，收敛性质较好，并且如果假设的类条件概率模型正确，则通常能获得较好的结果，但如果假设模型出现偏差，则会导致结果较差

阅读全文

0 0