00-EM算法

来源：互联网发布：java的编程思想是什么编辑：程序博客网时间：2024/06/06 20:51

在GMM/HMM（语音识别）训练过程中，需要使用EM算法进行求解模型参数。所以，本文主要推导一下EM算法。即明白什么是期望最大化？

Outline：

极大似然估计（Maximum Likelihood Estimation, MLE）
期望最大化算法（Expectation Maximization, EM）

我们知道如果概率模型的变量都是观测变量，那么给定数据，可以直接用极大似然估计法（MLE），或者贝叶斯估计法来估计模型参数（如：求在校学生身高分布）。然而，当模型中含有隐藏变量时，就不能简单地使用这些估计方法（如：《统计学习方法-李航》中的三硬币模型）。所以，在含有隐变量（Latent Variables）统计模型中，就需要利用EM算法来找到符合观测数据的最大似然的模型参数。

1.极大似然估计（Maximum Likelihood Estimation, MLE）

假如有n个独立同分布的观测值X=(x1,x2,⋯,xn)，来自一个未知概率密度函数的分布f0(.|θ)。问题就是怎么从观测值中求出待估参数θ？显然，这里可以利用一种常用的点估计方法——最大似然估计，求待估参数θ。
所有观测的联合密度函数：

f (x 1, x 2, \dots, x n | θ) = f (x 1 | θ) \times f (x 2 | θ) \times \dots \times f (x n | θ)

θ似然函数：

L (θ; x 1, x 2, \dots, x n) = f (x 1, x 2, \dots, x n | θ) = \prod i = 1 n f (x i | θ) l n L (θ; x 1, x 2, \dots, x n) = \sum i = 1 n l n f (x i | θ)

极大化似然函数：

θ^= a r g m a x θ l n L (θ; x 1, x 2, \dots, x n)

得到的θ^作为θ的极大似然估计，这样我们就求出了模型参数了。

2.期望最大化算法（Expectation Maximization,EM）

然而在一些实际问题中，所要求解的概率模型含有Latent Variable，导致无法利用ML直接计算。（注：下式是向量形式，对向量形式求概率实际上对每一个观测值概率做累乘，∑Z是对所以zi求和）

L (θ) = l n P (X | θ) (2.1)

因为有Latent Variable存在，在求时会遇到困难。所以应把Latent Variable考虑进去求解

L (θ) = l n \sum z P (X, Z | θ) = l n \sum z P (X | Z, θ) P (Z | θ) (2.2)

我们的目标是最大化L(θ)，即在迭代过程中，让L(θ)>L(θn)。相当于最大化

L (θ) - L (θ n) = l n P (X | θ) - l n P (X | θ n) = l n \sum z P (X | Z, θ) P (Z | θ) - l n P (X | θ n) = l n \sum z P (X | Z, θ) P (Z | θ) P ( Z | X , θ n ) P ( Z | X , θ n ) - l n P (X | θ n) \geq \sum Z P (Z | X, θ n) l n P ( X | Z , θ ) P ( Z | θ ) P ( Z | X , θ n ) - l n P (X | θ n) = \sum Z P (Z | X, θ n) l n P ( X | Z , θ ) P ( Z | θ ) P ( Z | X , θ n ) P ( X | θ n ) (2.3) (2.4) (2.5) (2.6)

(2.4)到(2.5)，P(Z|X,θn)满足λi≥0且∑n1=1，恰好下一步应用Jensen不等式。
(2.4)到(2.5)，利用到了Jensen不等式：ln∑n1λixi≥∑n1λilnxi; λi≥0且∑niλi=1。
(2.5)到(2.6)，利用lnP(X|θn)=∑ZP(Z|X,θn)lnP(X|θn)。令

l (θ | θ n) = \sum Z P (Z | X, θ n) l n P ( X | Z , θ ) P ( Z | θ ) P ( Z | X , θ n ) P ( X | θ n ) + L (θ n) L (θ) \geq l (θ | θ n) (2.7)

当θ=θn时，L(θn)=l(θn|θn)。即l(θn|θn)为L(θn)的下界。最大化l(θn|θn)，移除常数项

θ n + 1 = a r g m a x θ l (θ n | θ n) = a r g m a x θ {\sum Z P (Z | X, θ n) l n P ( X | Z , θ ) P ( Z | θ ) P ( Z | X , θ n ) P ( X | θ n ) + L (θ n)} = a r g m a x θ {\sum Z P (Z | X, θ n) l n [P (X | Z, θ) P (Z | θ)]} = a r g m a x θ {\sum Z P (Z | X, θ n) l n [P (X | Z, θ)]} = a r g m a x θ {E Z | X, θ n l n P (X, Z | θ)} = a r g m a x θ Q (θ, θ n) (2.8)

以上就是EM算法的导出过程。Q(θ,θn)是指完全数据的对数似然函数ln[P(X,Z|、theta)]关于给定观测数据X和当前参数θn下对未观测数据Z的条件概率分布P(Z|X,θn)的期望。这也是为什么叫期望最大化算法的缘故！即
- Expectation-Step: 确定条件期望Q(θ,θn)
- Maximization-Step: 最大化期望值，更新θn+1=argmaxθQ(θ,θn)

但实际使用中，可能有点misnomer。因为我们这样使用：
1. 选择初始值，开始迭代；
2. E-step:计算的是有关Q(θ,θn)固定的数据依赖的参数；
3. M-step:更新模型参数θn+1；
4. 重复2, 3，直至收敛

具体EM算法收敛性证明，见参考资料:《统计学习方法_9.2》- 李航

0 0