数据挖掘领域十大经典算法 --- EM算法

来源：互联网发布：淘宝灯具3c认证哪里来编辑：程序博客网时间：2024/05/16 18:16

算法数学原理可参考：http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006936.html

EM算法的目标是找出有隐性变量的概率模型的最大可能性解，包括两个步骤：由E步和M步组成，它是通过迭代地最大化完整数据的对数似然函数Lc( X;Θ )的期望来最大化不完整数据的对数似然函数，其中：

Lc(X;Θ) =log p(X，Y |Θ) ；
    假设在算法第t次迭代后Θ 获得的估计记为Θ(t ) ，则在（t+1）次迭代时，
    E-步：计算完整数据的对数似然函数的期望，记为：
    Q(Θ |Θ (t) ) = E{Lc(Θ;Z)|X;Θ(t) }；
    M-步：通过最大化Q(Θ |Θ(t) ) 来获得新的Θ 。

通过交替使用这两个步骤，EM算法逐步改进模型的参数，使参数和训练样本的似然概率逐渐增大，最后终止于一个极大点。直观地理解EM算法，它也可被看作为一个逐次逼近算法：事先并不知道模型的参数，可以随机的选择一套参数或者事先粗略地给定某个初始参数λ0 ，确定出对应于这组参数的最可能的状态，计算每个训练样本的可能结果的概率，在当前的状态下再由样本对参数修正，重新估计参数λ ，并在新的参数下重新确定模型的状态，这样，通过多次的迭代，循环直至某个收敛条件满足为止，就可以使得模型的参数逐渐逼近真实参数。
EM算法的主要目的是提供一个简单的迭代算法计算后验密度函数，它的最大优点是简单和稳定，但容易陷入局部最优。