EM算法与高斯混合分布

来源:互联网 发布:苹果开发必备软件 编辑:程序博客网 时间:2024/05/16 03:36


    博客分类: 

作为机器学习的十大算法之一,EM算法可谓是风头出尽,尤其是EM算法在聚类等方面的优越表现,让EM算法备受瞩目,这个星期对EM算法进行了一番了解,说实话EM算法光从教科书上的那些公式说导我觉得很难理解,在的一节关于EM算法的公开课上慢慢的对EM算法有了算是入门的了解,今天就来说说EM算法与其典型的应用:

 

首先简略介绍一个高斯混合分布:

伦理片 http://www.dotdy.com/ 

在一个随机分布里面,可能存在着很多的分布类型,我们假设每个类的分布都符合高斯混合模型,那么一个随机值集合里面就会有多个高斯分布,举个简单的例子,在一群男女生中,我们统计每个人的身高数据,因为男女生的身高存在差异,我们显然不能讲两者的身高都做一样的处理,那么对于这个身高数据而言,男生的身高符合一个高斯分布,女生的身高符合一个高斯分布,这就是一个数据集里面的两个高斯分布,高斯分布的数学描述是:


                       

其中phi表示一个高斯分布,alpha表示该高斯分布占的比例

 

回到男女身高问题本身,现在的问题是如何求解男女身高的均值和方差(标准差)

 

当然我们可以使用极大似然估计来求解,但这只是理论上可行,实际并不可行

因此我们需要使用一种新的办法来求解,当然,这里自然指的是:EM算法

 

EM算法该如何理解,这是一个问题,七月算法的公开课讲的非常给力,

 

这里我不准备对EM进行理论推导,对于上述的男女身高问题这里仅给出一个结论,然后我们使用python将这个问题解决,当然,具体的推导过程见附件的pdf文件

 

每次迭代过程的公式是:


 

影音先锋电影 http://www.iskdy.com/

最后我们使用python代码来实现以下男女身高问题的求解过程,我给出了一个男生占50人女生占70人的数据集,其中男生均值为175,标准差为2,女生均值是160,方标准差为2,并加以0~1的随机噪声,然后通过代码求解EM算法运算的准确性




 

0 0
原创粉丝点击