白话机器学习算法(十一) GMM

来源:互联网 发布:网络公开课观后感 编辑:程序博客网 时间:2024/05/17 05:16

http://blog.csdn.net/wangxin110000/article/details/22524075

GMM就是高斯混合模型,用GMM去聚类的话,就变成了一个似然估计的问题,估计的参数就是选取每个高斯部件的概率,每个高斯各自的均值方差;

我们可以把实际数据看做由这个GMM随机数生成器产生的,N个数据就是N个观测值,数据之间独立;

根据数据找出这个模型的参数,有了模型参数,我就能简单的算出数据属于哪个高斯部件的概率最大,论文中一般都说responsibility,所以用高斯混合模型来聚类,实质就是一个参数估计问题,EM算法就是专门干这个的;

HMM也是一个参数估计问题,而且HMM跟GMM有很大的相似;

总的来说,基于概率的聚类  用到的就是两个东西 MAP(比如贝叶斯) MLE(这个就很多了,GMM GTM都是这样的),;其他的还有ME(最大熵),ICA的一种方法就是基于最大熵模型得出统计独立的各个分量;

 

关于EM算法,以后专门详细讨论 .

如果将GMM稍微推广下,加上一点约束,就是假定这些高斯中心位于高维空间的一个流形上,就可以把这些高斯中心映射到一个低维隐空间,我就可以将实际的数据通过后验概率映射到那个隐空间坐标上,实现数据降维,或者数据可视化,这就是GTM算法,这个算法可以在低维空间保持数据的拓扑有序,但是这个保证需要实际数据满足上面的那个假设,就是假定这些高斯中心位于高维空间的一个流形上,隐空间的维度是这个流形的本质维度才行,如果不满足,就不能完全保证这些数据的拓扑有序;


0 0
原创粉丝点击