数据挖掘领域十大经典算法 --- EM算法

来源:互联网 发布:淘宝灯具3c认证哪里来 编辑:程序博客网 时间:2024/05/16 18:16

算法数学原理可参考:http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006936.html

EM算法的目标是找出有隐性变量的概率模型的最大可能性解,包括两个步骤:由E步和M步组成,它是通过迭代地最大化完整数据的对数似然函数Lc( X;Θ )的期望来最大化不完整数据的对数似然函数,其中:

Lc(X;Θ) =log p(X,Y |Θ) ;
    假设在算法第t次迭代后Θ 获得的估计记为Θ(t ) ,则在(t+1)次迭代时,
    E-步:计算完整数据的对数似然函数的期望,记为:
    Q(Θ |Θ (t) ) = E{Lc(Θ;Z)|X;Θ(t) };
    M-步:通过最大化Q(Θ |Θ(t) ) 来获得新的Θ 。

   通过交替使用这两个步骤,EM算法逐步改进模型的参数,使参数和训练样本的似然概率逐渐增大,最后终止于一个极大点。直观地理解EM算法,它也可被看作为一个逐次逼近算法:事先并不知道模型的参数,可以随机的选择一套参数或者事先粗略地给定某个初始参数λ0 ,确定出对应于这组参数的最可能的状态,计算每个训练样本的可能结果的概率,在当前的状态下再由样本对参数修正,重新估计参数λ ,并在新的参数下重新确定模型的状态,这样,通过多次的迭代,循环直至某个收敛条件满足为止,就可以使得模型的参数逐渐逼近真实参数。
    EM算法的主要目的是提供一个简单的迭代算法计算后验密度函数,它的最大优点是简单和稳定,但容易陷入局部最优。


原创粉丝点击