数据挖掘：Top 10 Algorithms in Data Mining(五)EM算法

来源：互联网发布：java替换所有特殊字符编辑：程序博客网时间：2024/05/06 00:20

EM的核心是通过已有的数据来递归的估计似然函数，常用用在样本特征丢失的情况中。其前身为Baum-Welch算法。EM与K-means比较：计算复杂，收敛较慢，依赖初始值，容易进入局部最优点。

K-means的迭代步骤可以看成E步和M步，E：固定参数类别中心向量重新标记样本，M：固定标记样本调整类别中心向量。K均值只考虑（估计）了均值，而没有估计类别的方差，所以聚类的结构比较适合于特征协方差相等的类别。

假设完整的样本集D=｛x1,……,xn｝服从某个特定分布。假设一些特征丢失。设任一样本为xi=｛xig,xib｝，表示样本的特征由两部分组成：xig表示完整的样本特征；xib表示丢失或损坏的特征。我们用Dg和Db分别表示两类特征集。全部特征集D=DgUDb。

分号表示上式左边是一个关于θ的函数，θ^i表示已经取固定值。右边表示丢失特征求对数似然函数的期望。θ^i表示表示整个分布的真实参数。该公试为EM算法的核心。

θ^i为当前对样本集分布最好的估计，θ则是在次基础上对θ^i改进的一个候选参数，即θ是下一个θ^i的候选。

http://www.tnove.com