数据挖掘十大经典算法（五）最大期望(EM)算法

来源：互联网发布：韩视美瞳怎么样知乎编辑：程序博客网时间：2024/05/29 02:26

最大期望算法（Expectation Maximization Algorithm，又译期望最大化算法），是一种迭代算法。在概率（probabilistic）模型中寻找参数最大似然估计或者最大后验估计的算法，其中概率模型依赖于无法观测的隐藏变量（Latent Variable）。

最大期望经常用在机器学习和计算机视觉的数据聚类（Data Clustering）领域。

EM算法思想：假设我们估计知道A和B两个参数，在开始状态下二者都是未知的，并且知道了A的信息就可以得到B的信息，反过来知道了B也就得到了A。可以考虑首先赋予A某种初值，以此得到B的估计值，然后从B的当前值出发，重新估计A的取值，这个过程一直持续到收敛为止。

最大似然估计，概率论中参数估计的方法之一。已知某个随机样本满足某种概率分布，但是其中具体的参数不清楚，参数估计就是通过若干次试验，观察其结果，利用结果推出参数的大概值，把这个参数作为估计的真实值。

最大期望算法经过两个步骤交替进行计算：

第一步是计算期望（E），利用对隐藏变量的现有估计值，计算其最大似然估计值；

第二步是最大化（M），最大化在 E 步上求得的最大似然值来计算参数的值。

总体来说，EM的算法流程如下：

1 0