【机器学习】EM算法推导

来源：互联网发布：成都java程序员工资编辑：程序博客网时间：2024/06/07 02:39

1 为什么要用EM算法

有时，我们用极大似然的时候，公式中可能会有隐变量：

L (θ) = \prod i = 1 m p (y i; θ) = \prod i = 1 m [\sum z p (y i, z; θ)] = \prod i = 1 m [\sum z p (z; θ) p (y i | z; θ)]

也就是 y 取什么值是由隐含的变量 z 决定的。举个栗子：有三个硬币，ABC，先抛A，由A的正反面决定下一步抛 B 还是抛 C ，A是正面抛B，A是反面抛C。第二次抛不管是B还是C，如果是正面就记为1，如果是反面就记为0。如果我们连续重复【A→B或C】这个过程，得到了一个序列1，1，0，1，0，0，1，0，1，1，问：怎么估计三枚硬币正面出现的概率？显然这里A就是一个隐变量。由于它的不同，后面第二次抛硬币得到正面的几率也不同。

EM算法就是解决这类含有隐变量的极大似然问题的有效算法。

2 基本思想

EM算法的基本思想是通过优化目标函数的下界，间接优化目标函数。

打个通俗的比方，我们都听过小和尚抱小牛的故事，老和尚让小和尚从小就抱一头小牛。小牛每天长大，小和尚每天都抱得动。最后小和尚变得力大无比。这里，小和尚的力气就是目标函数，小牛的体重就是目标函数的下界。小牛随着时间的增长而越来越重，这就是优化下界。而小和尚由于总抱小牛，力气也随着增长，这就是间接优化了目标函数。

3 Jensen不等式

EM算法中，目标函数的下界是由Jensen不等式导出的。

具体的，若 f(x) 是凸函数，则：

f (E [x]) ⩽ E [f (x)]

若 f(x) 是凹函数，则：

f (E [x]) ⩾ E [f (x)]

E是求期望。

4 EM算法

方便起见，把似然函数简写成如下形式：

L (θ) = \prod i = 1 m [\sum z p (z; θ) p (y i | z; θ)] = \sum z p (z; θ) p (Y | z; θ) (4.1)

取对数：

l (θ) = log L (θ) = log \sum z p (z; θ) p (Y | z; θ) (4.2)

我们希望的是对数似然函数取极大值，所以在迭代到 n 次时，我们希望 l(θn+1)>l(θn) 。考虑：

l (θ) - l (θ n) = log [\sum z p (z; θ) p (Y | z; θ)] - log p (Y; θ n) (4.3)

由于对数函数是凹函数，利用Jensen不等式得到：

l (θ) - l (θ n) = log [\sum z p (z; θ) p (Y | z; θ)] - log p (Y; θ n) = log [\sum z p (z | Y; θ n) p ( z ; θ ) p ( Y | z ; θ ) p ( z | Y ; θ n )] - log p (Y; θ n) = log E z [p ( z ; θ ) p ( Y | z ; θ ) p ( z | Y ; θ n )] - log p (Y; θ n) ⩾ E z [log p ( z ; θ ) p ( Y | z ; θ ) p ( z | Y ; θ n )] - log p (Y; θ n) = \sum z p (z | Y; θ n) log p ( z ; θ ) p ( Y | z ; θ ) p ( z | Y ; θ n ) - \sum z p (z | Y; θ n) log p (Y; θ n) = \sum z p (z | Y; θ n) log p ( z ; θ ) p ( Y | z ; θ ) p ( z | Y ; θ n ) p ( Y ; θ n ) (4.4)

仔细看上面推导中 n 的位置。

定义：

l (θ | θ n) = l (θ n) + \sum z p (z | Y; θ n) log p ( z ; θ ) p ( Y | z ; θ ) p ( z | Y ; θ n ) p ( Y ; θ n ) (4.5)

所以有：

l (θ) ⩾ l (θ | θ n)

这样，我们就得到了目标函数的下界。注意看（4.5）式右边第二项，是一个求期望的过程，也就是EM算法中的E步。之后再优化 θ 使得下界 l(θ|θn) 最大，就是M步。由（4.5）式，略去与 θ 无关的常数，M步优化的目标函数如下：

max θ \sum z p (z | Y; θ n) log p (z; θ) p (Y | z; θ)

也就是说，每次让下界增加，就最大程度地增加它。记：
Q(θ|θn)=∑zp(z|Y;θn)logp(z;θ)p(Y|z;θ)=Ez|Y;θ[logP(Y,z;θ)](4.6)

所以，E步就是：求 Q(θ|θn) 。M步就是：求 argmaxθQ(θ|θn)。重复直到收敛。

EM算法受初值影响大，不能保证首先到全局最优，只能保证收敛到稳定点。

阅读全文

0 0