DPMM的理解、公式推导及抽样

来源：互联网发布：手机midi键盘软件编辑：程序博客网时间：2024/06/06 02:23

DPMM学习的基础及相关论文

学习DPMM(Dirichlet 过程混合模型)之前，首先要去理解DP过程及其三种构造方式，（1）Stick-breaking 构造，（2）Polya urn scheme 构造，（3）Chinese restaurant process 构造。这三种构造是学习DPMM及HDP，还有其他非参模型的基础工作。

关于Stick-breaking 构造可以参考我的一篇博客：http://blog.csdn.net/qy20115549/article/details/62041632
这三种构建在论文：
周建英, 王飞跃, 曾大军. 分层 Dirichlet 过程及其应用综述[J]. 自动化学报, 2011, 37(4): 389-407.

其他论文还有：
Teh Y W, Jordan M I, Beal M J, et al. Sharing clusters among related groups: Hierarchical Dirichlet processes[C]//Advances in neural information processing systems. 2005: 1385-1392.
Navarro D J, Griffiths T L, Steyvers M, et al. Modeling individual differences using Dirichlet processes[J]. Journal of mathematical Psychology, 2006, 50(2): 101-122.

Gibbs Sampling Methods for Dirichlet Process Mixture Model Technical Details
这些论文都有介绍DP的基础以及DPMM模型及HDP模型的内容。

DPMM的通俗理解

DPMM的思想是：假设我们现在有一个巨大的空间，整个空间中包含了无数的混合组成成分，每次选择其中的几个成分，然后利用这几个成分生成一组数据。我们把一组一组的数据放在一起，就得到了我们现在所拥有的数据。
所以DPMM有着很好的聚类性质，该模型能够实现一组数据的聚类和分析。但是研究多组数据的聚类问题时, 单纯利用Dirichlet 过程混合模型是无法实现建模分析的，比如说多篇文档的聚类。这时就出现了HDP模型。在之后的博客中，我会介绍HDP的理解。