数据挖掘十大经典算法(五)最大期望(EM)算法

来源:互联网 发布:韩视美瞳怎么样 知乎 编辑:程序博客网 时间:2024/05/29 02:26


最大期望算法(Expectation Maximization Algorithm,又译期望最大化算法),是一种迭代算法。概率(probabilistic)模型中寻找参数最大似然估计或者最大后验估计的算法,其中概率模型依赖于无法观测的隐藏变量(Latent Variable)。

最大期望经常用在机器学习计算机视觉数据聚类Data Clustering)领域。


EM算法思想:假设我们估计知道A和B两个参数,在开始状态下二者都是未知的,并且知道了A的信息就可以得到B的信息,反过来知道了B也就得到了A。可以考虑首先赋予A某种初值,以此得到B的估计值,然后从B的当前值出发,重新估计A的取值,这个过程一直持续到收敛为止。

最大似然估计,概率论中参数估计的方法之一。已知某个随机样本满足某种概率分布,但是其中具体的参数不清楚,参数估计就是通过若干次试验,观察其结果,利用结果推出参数的大概值,把这个参数作为估计的真实值。

最大期望算法经过两个步骤交替进行计算:
第一步是计算期望(E),利用对隐藏变量的现有估计值,计算其最大似然估计值;
第二步是最大化(M),最大化在 E 步上求得的最大似然值来计算参数的值。
总体来说,EM的算法流程如下:
  1. 初始化分布参数
  2. 重复直到收敛:
    1. E步骤:估计未知参数的期望值,给出当前的参数估计。
    2. M步骤:重新估计分布参数,以使得数据的似然性最大,给出未知变量的期望估计。


1 0
原创粉丝点击