EM算法求高斯混合模型参数估计——Python实现
来源:互联网 发布:苹果电脑的软件 编辑:程序博客网 时间:2024/05/18 02:56
EM算法一般表述:
当有部分数据缺失或者无法观察到时,EM算法提供了一个高效的迭代程序用来计算这些数据的最大似然估计。在每一步迭代分为两个步骤:期望(Expectation)步骤和最大化(Maximization)步骤,因此称为EM算法。
假设全部数据Z是由可观测到的样本X={X1, X2,……, Xn}和不可观测到的样本Z={Z1, Z2,……, Zn}组成的,则Y = X∪Z。EM算法通过搜寻使全部数据的似然函数Log(L(Z; h))的期望值最大来寻找极大似然估计,注意此处的h不是一个变量,而是多个变量组成的参数集合。此期望值是在Z所遵循的概率分布上计算,此分布由未知参数h确定。然而Z所遵循的分布是未知的。EM算法使用其当前的假设h`代替实际参数h,以估计Z的分布。
Q( h`| h) = E [ ln P(Y|h`) | h, X ]
EM算法重复以下两个步骤直至收敛。
步骤1:估计(E)步骤:使用当前假设h和观察到的数据X来估计Y上的概率分布以计算Q( h` | h )。
Q( h` | h ) ←E[ ln P(Y|h`) | h, X ]
步骤2:最大化(M)步骤:将假设h替换为使Q函数最大化的假设h`:
h ←argmaxQ( h` | h )
高斯混合模型参数估计问题:
Python实现(模拟2个正态分布的均值估计):
#coding:gbkimport mathimport copyimport numpy as npimport matplotlib.pyplot as pltisdebug = False# 指定k个高斯分布参数,这里指定k=2。注意2个高斯分布具有相同均方差Sigma,分别为Mu1,Mu2。def ini_data(Sigma,Mu1,Mu2,k,N): global X global Mu global Expectations X = np.zeros((1,N)) Mu = np.random.random(2) Expectations = np.zeros((N,k)) for i in xrange(0,N): if np.random.random(1) > 0.5: X[0,i] = np.random.normal()*Sigma + Mu1 else: X[0,i] = np.random.normal()*Sigma + Mu2 if isdebug: print "***********" print u"初始观测数据X:" print X# EM算法:步骤1,计算E[zij]def e_step(Sigma,k,N): global Expectations global Mu global X for i in xrange(0,N): Denom = 0 for j in xrange(0,k): Denom += math.exp((-1/(2*(float(Sigma**2))))*(float(X[0,i]-Mu[j]))**2) for j in xrange(0,k): Numer = math.exp((-1/(2*(float(Sigma**2))))*(float(X[0,i]-Mu[j]))**2) Expectations[i,j] = Numer / Denom if isdebug: print "***********" print u"隐藏变量E(Z):" print Expectations# EM算法:步骤2,求最大化E[zij]的参数Mudef m_step(k,N): global Expectations global X for j in xrange(0,k): Numer = 0 Denom = 0 for i in xrange(0,N): Numer += Expectations[i,j]*X[0,i] Denom +=Expectations[i,j] Mu[j] = Numer / Denom # 算法迭代iter_num次,或达到精度Epsilon停止迭代def run(Sigma,Mu1,Mu2,k,N,iter_num,Epsilon): ini_data(Sigma,Mu1,Mu2,k,N) print u"初始<u1,u2>:", Mu for i in range(iter_num): Old_Mu = copy.deepcopy(Mu) e_step(Sigma,k,N) m_step(k,N) print i,Mu if sum(abs(Mu-Old_Mu)) < Epsilon: breakif __name__ == '__main__': run(6,40,20,2,1000,1000,0.0001) plt.hist(X[0,:],50) plt.show()
本代码用于模拟k=2个正态分布的均值估计。其中ini_data(Sigma,Mu1,Mu2,k,N)函数用于生成训练样本,此训练样本时从两个高斯分布中随机生成的,其中高斯分布a均值Mu1=40、均方差Sigma=6,高斯分布b均值Mu2=20、均方差Sigma=6,生成的样本分布如下图所示。由于本问题中实现无法直接冲样本数据中获知两个高斯分布参数,因此需要使用EM算法估算出具体Mu1、Mu2取值。
图 1 样本数据分布
在图1的样本数据下,在第11步时,迭代终止,EM估计结果为:
Mu=[ 40.55261688 19.34252468]
附:
极大似然估计
参考文献:机器学习TomM.Mitchell P.137
- EM算法求高斯混合模型参数估计——Python实现
- EM算法求高斯混合模型参数估计-python
- 统计学习方法---高斯混合模型参数估计的EM算法
- 机器学习 - 高斯混合模型参数估计的EM算法
- 高斯混合模型参数估计的EM算法
- EM算法 估计混合高斯模型参数 Python实现
- EM算法 高斯模型 的参数估计 C++实现
- 一维高斯混合模型EM算法实现
- 学习笔记———《GMM模型以及基于EM算法的参数估计》
- 高斯混合模型、EM参数估计及其代码
- 机器学习Chapter3-(聚类分析)详解高斯混合模型与EM算法(Python实现)
- GMM混合高斯模型的EM算法及Python实现
- EM(期望最大算法)在高斯混合模型中的python实现
- EM 算法之二—————高斯混合模型与 EM
- 高斯混合模型(GMM)的EM算法实现
- 斯坦福大学机器学习——EM算法求解高斯混合模型
- 斯坦福大学机器学习——EM算法求解高斯混合模型
- 斯坦福大学机器学习——EM算法求解高斯混合模型
- QT中定时器使用办法
- HDU 2510 符号三角形 dfs打表
- Canvas的画线技巧
- jquery中的细节
- CFileDialog
- EM算法求高斯混合模型参数估计——Python实现
- 床上用品的选购常识
- QT中窗口刷新事件的学习总结
- Linux内存管理原理
- PDO的三种连接数据库的方式
- C++基础之内存(通过物理\计算机读写\操作系统来解析)
- 如何建立物品的同现矩阵
- HTML4与HTML5之间的10个本质区别
- android中保存一个ArrayList到SharedPreferences的方法