白话机器学习算法（十一） GMM

来源：互联网发布：网络公开课观后感编辑：程序博客网时间：2024/05/17 05:16

http://blog.csdn.net/wangxin110000/article/details/22524075

GMM就是高斯混合模型，用GMM去聚类的话，就变成了一个似然估计的问题，估计的参数就是选取每个高斯部件的概率，每个高斯各自的均值方差；

我们可以把实际数据看做由这个GMM随机数生成器产生的，N个数据就是N个观测值，数据之间独立；

根据数据找出这个模型的参数，有了模型参数，我就能简单的算出数据属于哪个高斯部件的概率最大，论文中一般都说responsibility，所以用高斯混合模型来聚类，实质就是一个参数估计问题，EM算法就是专门干这个的；

HMM也是一个参数估计问题，而且HMM跟GMM有很大的相似；

总的来说，基于概率的聚类用到的就是两个东西 MAP（比如贝叶斯） MLE（这个就很多了，GMM GTM都是这样的）,；其他的还有ME（最大熵），ICA的一种方法就是基于最大熵模型得出统计独立的各个分量；

关于EM算法，以后专门详细讨论 .

如果将GMM稍微推广下，加上一点约束，就是假定这些高斯中心位于高维空间的一个流形上，就可以把这些高斯中心映射到一个低维隐空间，我就可以将实际的数据通过后验概率映射到那个隐空间坐标上，实现数据降维，或者数据可视化，这就是GTM算法，这个算法可以在低维空间保持数据的拓扑有序，但是这个保证需要实际数据满足上面的那个假设，就是假定这些高斯中心位于高维空间的一个流形上，隐空间的维度是这个流形的本质维度才行，如果不满足，就不能完全保证这些数据的拓扑有序；

0 0