人工智能里的数学修炼 | 模型参数求解:极大似然估计

来源:互联网 发布:网络写作大神 编辑:程序博客网 时间:2024/05/16 18:29

极大似然估计(maximum likelihood estimation,mle)方法最初由德国数学家高斯提出,但这个方法通常被归功于英国统计学家罗纳德·菲舍尔。他在1992年的论文On the mathematical foundations of theoretical statistics, reprinted in Contributions to Mathematical Statistics总结了极大似然估计,极大似然估计的名字也是费舍尔给的。1950年 J. Wiley & Sons 中再次提出了这个思想,并且首先探讨了这种方法的一些性质,目前,这仍然是一种得到广泛应用的参数估计方法

一、极大似然估计原理
二、极大似然的数学模型与求解

一、极大似然估计原理

极大似然估计提供了一种给定观察数据来评估模型参数的方法,即“模型已知,参数未知“。其直接原理是:一个随机试验如果有若干个可能的结果A,B,C,…,若在一次实验中,结果A出现了,那么可以认为实验条件对A的出现有利,即A事件发生的概率P(A)较大。

举一个简单的例子:
设甲箱中有99个白球,1个黑球;乙箱中有1个白球,99个黑球。现随机取出一个箱子,再从抽取的一箱中随机取出一球,结果是黑球,我们知道,这一球是从乙箱抽取的概率比从甲箱中抽取的概率大的多,这时我们自然更多的愿意相信这个黑球是取自乙箱的。
更一般的来说,若事件A的发生概率与某一未知参数 θ 有关, θ 取值不同,则事件A发生的概率 P(A|θ) 也不同,当我们在一次试验中,若事件A发生了,则此时认为 θ 值应是一切可能取值中使 P(A|θ) 最大的那一个,极大似然估计法就是要选取这样的值作为参数的估计值

极大似然估计,是概率论在统计学中的应用,它是参数估计的方法之一。说的是已知某个随机样本满足某种概率分布,但是其中具体的参数不清楚,参数估计就是通过若干次试验,观察其结果,利用结果推出参数的大概值。极大似然估计是建立在这样的思想上:已知某个参数能使这个样本出现的概率最大,我们当然不会再去选择其他小概率的样本,所以干脆就把这个参数作为估计的真实值。
极大似然估计一个很重要的假设是:所有采样都是独立同分布的

二、极大似然的数学模型与求解

极大似然估计的一般求解步骤为:
(1)写出似然函数
(2)取平均对数似然函数
(3)求解似然估计值
现在我们分步来介绍

2.1 列出似然函数

首先,假设 x1,x2,...,xn 为独立同分布的采样, θ为模型参数,f 为我们所用的模型。则参数为 θ 的模型 f 产生上述采样可表示为

f(x1,x2,...,xn|θ)=f(x1|θ)×f(x2|θ)×···×f(xn|θ)

此时,我们已知的为 x1,x2,...,xn,未知的为 θ。现定义似然函数为

L(θ|x1,x2,...,xn)=f(x1,x2,...,xn|θ)=ni=1f(xi|θ)

2.2 取平均对数似然函数

在实际应用中我们通常将似然函数取对数

lnL(θ|x1,x2,...,xn)=ni=1lnf(xi|θ)

我们称上式中的 lnL 为对数似然函数, L¯=1nlnL 为平均对数似然,而我们平时所称的对数似然为最大的平均对数似然,即

θ¯mle=argmaxL¯(θ|x1,x2,...,xn)

选择似然函数在观测值最大处的那个参数值作为 θ 的估计。以上为离散型随机变量的极大似然估计,若总体为连续性,则可以使用其概率密度函数构建似然函数。
极大似然估计法的原理就是固定样本观测值 (x1,x2,...,xn) ,挑选参数 θ 使

L(x1,x2,..,xn|θ¯)=maxL(x1,x2,..,xn|θ)

这样得到的 θ¯ 与样本值有关,θ¯(x1,x2,...,xn)称为参数 θ 的极大似然估计值

2.3 求解似然估计值

现在我们已经列出了似然方程,问题在于如何把参数 θ 的极大似然估计值 θ¯求出。在大多数场合下,我们可以通过用平均对数似然方程对 θ 求导从而获得极值点,即求解

lnL¯(θ)θ=0

通过极大似然法估计参数的特点在于,它相对于其他估计方法更为简单,收敛性质较好,并且如果假设的类条件概率模型正确,则通常能获得较好的结果,但如果假设模型出现偏差,则会导致结果较差

原创粉丝点击