高斯混合模型GMM和EM

来源:互联网 发布:软件著作权怎么查 编辑:程序博客网 时间:2024/04/29 14:20

高斯混合模型(GMM),是一种可以用来匹配测试数据集的常用模型。和K-means一样,经常用来做数据分类,其中应用的Expectation-Maximization(EM)算法更是可以看做k-means 的一般特例。
首先区别两个概念
1.单高斯分布模型(GSM)
这里我们不要把单高斯分布和单变量高斯分布混淆了,虽然他们只是维数不同,但是理解成单变量可能会对我们的多高斯分布的理解造成混乱。
这个是单变量高斯模型(也即正态分布):

f(x)=12πσexp((xμ)22σ2)

这个是单高斯分布模型
  N(x;u,Σ)=12π|Σ|exp[12(xu)T]Σ1(xu)
比如我们有下面这样一组数据集[1,2],
Fig.1单高斯模型匹配
从图中我们可以看出,这个数据集我们可以用高斯模型进行匹配(二维),直观来看,效果应该是比较好的(当然你肯定可以用k-means等等)。
2.高斯混合模型
为什么要提出这个概念呢?先上个图片瞅瞅,从图中我们明显看出来,如果用单高斯模型去fit这些数据,肯定是不合理的。但是看着这个图我们可以得到一点启发,我们能不能用多高斯模型匹配呢?你看这幅图长得像不像很多个高斯模型(椭圆)混在一起的样子?这就是我们要研究这个模型的动机。
这里写图片描述
这里我们先上一个公式,现有一点认识,后面我们慢慢讲这个公式是怎么来的
GMM模型:
Pr(x)=ΣKk=1πkN(x;uk,Σk)
,这里的πk是选中参量为ukΣk的概率,也叫权值因子。从公式中我们可以看出来,这个GMM就是由多个单高斯分布GSM按照一定的权值组装起来的。所以这里比较关键的问题,除了根据数据集,按照极大似然估计的办法估计出参数ukΣk外,还要知道组成混合模型的每一个单个模型大概占多少比重,这个比重可以通过EM求得,后面我们会细讲。

这里有个问题,为什么我们要假设数据是由若干个高斯分布组合而成的,而不假设是其他分布呢?实际上不管是什么分布,只K取得足够大,这个XX Mixture Model就会变得足够复杂,就可以用来逼近任意连续的概率密度分布。只是因为高斯函数具有良好的计算性能,所GMM被广泛地应用[1]。

下面言归正传,我们通过一个简单的例子来大概理解一下混合高斯模型和EM算法[3]
混合模型:f(x)=(1π)g1(x)+πg2x
高斯混合:gj(x)=ϕθj(x),θj=(μj,σ2j)
继续盗个图[3]
这里写图片描述
左边的两个图表示两个高斯模型,右边的图表示的是相对密度,也叫每个类的responsibilities,他被定义为:g1(x)/(g1(x)+g2(x))g2(x)/(g1(x)+g2(x)),这个概念对我们使用EM非常重要,EM就是通过这个responsibilities来将两个类平滑的分开。
接着我们讲一个更为具体的例子:
这里写图片描述
我们有一堆数据,画在图中是上图红色的那个样子,显然他像极了两个连在一起的山峰,也就是两个高斯分布的叠加。
假设在这个例子中,我们有:

Y1N(μ1,σ21)  Y2N(μ2,σ22)

Y=(1Δ)g1+Δg2

这里的Δ={0,1}Pr(Δ=1)=π
定义ϕθ(x)θ=(μ,σ2),则上式的密度函数为:
gY(y)=(1π)ϕθ1(y)+πϕθ2(y)
,
那么对于我们所有的N个测试数据集,对数极大似然函数为:
l(θ;z)=ΣNi=1log[(1π)ϕθ1(y)+πϕθ2(y)]

因为我们是一个双函数高斯函数,我们让我们的隐式变量(就是刚才式子里面的Δ)从0或1中取值(刚好两类么),是0就是第一种高斯分布,是1 就是第二种,如果我们知道Δi的值,也就是我们知道第i个高斯分布的参量我们知道怎么对应,那么上面那个公式可以改写成:
l(θ;z,Δ)=ΣNi=1log[(1Δi)ϕθ1(yi)+Δiϕθ2(yi)]+ΣNi=1[(1Δi)logπ+Δilog(1π)]
(此公式的推导思路,概率再乘上对应的Δ,然后利用log 函数的性质求解)
下面就是推导过程中的重头戏了,我们刚才是假设我们知道每个高斯分布的权重,即Δ,所以EM就是用来获得Δ,从而我们可以用上式进行。定义:
γi(θ)=E(Δi|θ,z)=Pr(Δi=1|θ,z)

上式被称作我们刚才提到的“responsibility”,因为这里我们讨论的是Δi=1,所以是第二个高斯模型的“responsibility”。这里写图片描述

【1】http://www.cnblogs.com/CBDoctor/archive/2011/11/06/2236286.html
【2】http://www.cnblogs.com/mindpuzzle/archive/2013/04/24/3036447.html
【3】http://statweb.stanford.edu/~tibs/stat315a/LECTURES/em.pdf

0 0
原创粉丝点击