最大似然估计方法

来源：互联网发布：mac 隐藏文件夹显示编辑：程序博客网时间：2024/04/30 09:56

在实际问题中，我们通常得不到问题的概率结构的全部知识，我们只有利用训练样本来估计问题所涉及的先验概率和条件密度函数，并把这些估计结果当作问题真正的先验概率和条件密度函数，然后再设计分类器。已知概率密度函数的形式，估计其参数的这个过程即参数估计(Parameter Estimation)。常用的估计方法有最大似然估计、最大后验估计、贝叶斯估计等。

若设x=(x1,…,xn)是来自概率密度函数p(x|θ)的独立采样，则其乘积

p (x | θ) = \prod i = 1 n p (x i | θ)

有两个解释：当参数θ给定时，p(x|θ)是样本x的联合密度函数；当样本x的观察值给定时，p(x|θ)是未知参数θ的函数，称为样本的似然函数，常记作L(θ)。

定义对数似然函数为：

ℓ (θ) = ln L (θ) = \sum i = 1 n ln p (x i | θ)

求解似然函数取得最大值时的参数θ的过程即最大似然估计(MLE, maximum-likelihood estimation)：

θ^= a r g m a x θ ℓ (θ)

具体的求解办法是对参数θ求导，导数为0时，即似然函数的极值点，可求得待估计的参数。

最大似然估计、最小二乘法和正态分布均由高斯发展而来，它解决了求解误差的概率密度分布问题，是19世纪统计学最重要的成就。下面依葫芦画瓢的简单贯通一下它们之间的联系。

正态分布的最大似然估计

假定样本服从正态分布，参数向量θ是正态分布的均值和方差θ=(μ,σ2)，其中θ1=μ,θ2=σ2，可得单个样本的对数似然函数：

p (x i | θ) ℓ (x i | θ) = 1 2 π θ 2 - - - - \sqrt e - ( x i - θ 1 ) 2 2 θ 2 = - 1 2 ln 2 π θ 2 - 1 2 θ 2 (x i - θ 1) 2

对向量θ求导，即对参数各自求偏导数

`$$
\nabla_{\theta}\ell =
\begin{bmatrix}
\frac{\partial \ell(x_i | \theta)}{\partial \theta_1} \
\frac{\partial \ell(x_i | \theta)}{\partial \theta_2}

[x i - θ 1 θ 2 - 1 2 θ 2 + ( x i - θ 1 ) 2 2 θ 2 2]

$$`

当导数等于0的时候，即得到全体样本的对数似然函数的极值条件，求解如下方程组可得参数θ：

⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ \sum i = 1 n ( x i - θ ^ 1 ) θ ^ 2 = 0 - \sum i = 1 n 1 θ ^ 2 + \sum i = 1 n ( x i - θ ^ 1 ) 2 θ ^ 2 2 = 0

其中，θ^1和θ^2分别是对θ1和θ2的最大似然估计。把θ^1和θ^2分别用μ^和σ^2替代，就可以得到正态分布的均值和方差的最大似然估计结果：

μ^σ^2 = 1 n \sum i = 1 n x i = 1 n \sum i = 1 n (x i - μ^) 2

可以看出参数均值的最大似然估计就是样本均值，参数方差的最大似然估计就是样本方差。

误差平方和最小假设

在特定前提下，任一学习算法如果使输出的假设预测和训练数据之间的误差平方最小化，它将输出极大似然假设

平方损失函数(quadratic loss function)

L (Y, f (X)) = (Y - f (X)) 2

假定学习器L工作在输入空间X、输出空间Y和假设空间H上，假设H为是X到Y的映射函数 f:X→Y。给定n个训练样本的集合，每个样本的输出值被随机噪声干扰，即每个训练样本可表示为 (xi,yi)，其中yi=f(xi)+ei为观察到的输出值，ei是代表噪声的随机变量。假定 ei是独立抽取且服从零均值的正态分布，即样本输出值yi服从均值f(xi)方差σ2的正态分布。要得到极大似然假设 yML即对数似然函数 ℓ(x|μ,σ2)取得极大值：

y M L = a r g m a x y \in Y ℓ (x | μ, σ 2) = a r g m a x y \in Y \prod i = 1 n p (x i | μ, σ 2) = a r g m a x y \in Y \prod i = 1 n 1 2 π σ 2 - - - - \sqrt exp (- 1 2 σ 2 (y i - μ) 2) = a r g m a x y \in Y \prod i = 1 n 1 2 π σ 2 - - - - \sqrt exp (- 1 2 σ 2 (y i - f (x i)) 2) = a r g m a x y \in Y \sum i = 1 n {ln 1 2 π σ 2 - - - - \sqrt - 1 2 σ 2 (y i - f (x i)) 2} = a r g m a x y \in Y \sum i = 1 n - 1 2 σ 2 (y i - f (x i)) 2 = a r g m i n y \in Y \sum i = 1 n 1 2 σ 2 (y i - f (x i)) 2 = a r g m i n y \in Y \sum i = 1 n (y i - f (x i)) 2

证明了极大似然假设 yML 是使训练值 yi 和假设预测值 f(xi) 之间误差平方和最小的那个。也可以看出最大化似然函数最终等价于最小化平方损失函数。

也可以参考第一章第12～13页的推导。

参考

模式分类 Duda 第三章最大似然估计和贝叶斯参数估计
机器学习 Mitchell T.M. 第六章贝叶斯学习
PRML 3.1.1 Maximum likelihood and least squares
MLAPP 7.3 Maximum likelihood estimation (least squares)

0 0