数据挖掘十大算法翻译——5EM算法

来源：互联网发布：淘宝官网工具软件下载编辑：程序博客网时间：2024/05/08 07:51

EM算法

有限混合分布为随机现象观察到的数据提供了建模和聚类的灵活方法。这里我们专注于普通混合模型的使用，它可以用于对连续的数据进行聚类同时估计潜在的密度函数。这些混合模型可以通过经由EM（Expection-Maximization）算法的最大似然概率来拟合。

1 介绍

有限混合模型正在越来越多的被用于随机现象的广泛可能的分布的建模和数据集合的聚类。这里我们考虑聚类的分析。
我们让p维的向量（y=（y_1,…,y_p）^T）包含p个变量的值，并且将要把他们聚集为n个实体,同时我们使y_j表示与第j（j=1,…,n）个实体相关的y的值。使用混合方法来聚类，y_1,…,y_n被假设为有限数字的混合的随机样本观测，例如g，由不知道比例的π_1,…,π_g组成。

Y_j的混合密度如下表示：
这里写图片描述
这里混合比例π_1,…,π_g合而为一，并且组条件密度f_i(y_i; θ_i)被指定到一个位置参数（i-1,…,g）θ_i向量。所有的位置的参数由下给出

这里的上标“T”表示的是向量转置。使用Ψ的估计，这个方法给出了一个依据成员构建的后验概率的评估的将数据聚类为g个类别的概率性的聚类。
这里写图片描述
这里的τ_i(y_i)是y_i（y_i观测中的真实实体）属于第i个混合的部分的先验概率（i=1,…,n）。

参数向量Ψ可是使用最大似然概率来评估。Ψ的最大似然概率评估（MLE,maximum likehood estimate），”Ψ” ̂是通过可能性等式适当的根得到的
这里写图片描述
此处

是Ψ的可能性等式的log。符合局部极大值的上式解可是通过期望最大化（EM）算法得到。

对于连续数据的建模，成员条件密度通常属于相同的参数族，举例而言，正态分布，在这个例子：
这里写图片描述
这里的表示的是p维的以向量μ为平局值和矩阵Σ为协方差举证的多元正太缝补分布。
采用诸如正态分布和t密度的椭圆对称成分的混合模型的一个吸引人的特征就是，在数据的仿射变换（也就是说，关于数据的位置，规模，和比例的变化）下，隐含集群是不变的。这样聚类的过程不依赖于例如量纲或者空间中簇的旋转这样不相干的系数。

2 混合正态的最大似然估计

McLachlan和peel描述了多元正态组分的最大似然估计的EM算法的E-和M-步骤。可以参考[56].对于这个问题的EM框架，没有观测到的成分标签z_ij被作为“遗失”数据。根据y_i是否属于第i个混合的成分z_ij（i=1,…,g;,j=1,..,n）被当做0或者1来处理。

在EM算法的第（k+1）次迭代，为Ψ给定目前的估计Ψ^kE-步骤需要获取成分数据log可能性这里写图片描述的期望。由于不可见的z_ij是线性的，这个E步骤会收到将z_ij替换为它们的条件期望的影响。这个条件期望使用Ψ^(k)，根据数据y_i的观测获得。也就是说Z_ij被替换为，它是为目前的Ψ使用目前的拟合Ψ^(k)，y_i属于第i个混合成分的后验概率。他可以如下表示：
这里写图片描述
在M-Step,对于第i个成分，更新的混合成分的π_i的估计，平均向量μ_i,和协方差举证Σ_i又下面的式子给出

可以看出M-step存在于闭型。
这些E-和M-步骤会一直被改变，知道这些估计参数的变化或者是log可能性少于一个特定的阈值。

3数值聚类

考虑可能性函数，我们可以选择一个合适的g的值。由于簇的数字呈现在数据中，我们缺少任何先前的信息，当g的值增长的时候我们迷你log可能性函数的增长。

在任何阶段，选择g=g0还是g=g1,例如g1=g0+1,可以通过进行可能性比例测试或者使用一些基于信息的范围（例如BIC，Bayesian information criterion）来决定。不幸的是，正则性条件不适用于可能性比例测试统计的λ。可以通过使用[55]中提到的抽样方法来处理。或者，我们也可以选择使用BIC，这样会导致如果-2logλ大于的时候，选择g=g1而不是g=g0。为了有等于差异d在参数的数字在混合模型中 g=g1和g=g0的拥有自由度的卡方的通常零分布。

0 0