DPMM和HDP 非参数贝叶斯(2)
来源:互联网 发布:java简历工作经历 编辑:程序博客网 时间:2024/06/15 22:39
图1: DPMM(Dirchlet process mixture model)
以上为DP对应的图模型,基本分布为G0,这里假设是一个高斯模型(可以是连续或者离散),
G~DP(/alpha0, G0),G为随机生成的一个DP,构造的过程即为参见前一篇博客中的Strick break过程。可以看出,G为一个离散的无限维分布(也就是随机过程)
/thetai ~G,这个抽取过程可以参见前文中的polya urn或者CRP,这里每个theta值即为对应球的颜色,当然也可以对应于多维随机变量
xi~P(/thetai),就是根据一组参数生成对应分布的过程了
可以对比一下LDA。当然这里只对应于单个文档的情况,LDA其实更类似于以下的HDP
在http://blog.csdn.net/windows2/article/details/10426383对应的LDA图中,
G相当于LDA中的/theta,/theta相当于LDA中的Zm,n(或者对应的参数/phi_z), xi相当于LDA中的wm,n.
图2:Hierarchical Dirchlet process
这个过程比上图DP增加了1层,
G0~DP(/alpha0, H)
Gi~DP(/alpha0, G0)
注意,这里的H相当于上图中的G0,可以是任意离散或者连续的分布(如高斯分布)
这里增加一层的意义在于,
i)第一层GP生成的G0,是一个无限维离散分布。由DP的性质,以G0为基础分布生成的Gi,其定义域只能是G0定义域的一个子集
也就是说,对于不同的i,Gi将有共同的离散的定义域。离散分布的意义是,对某些取值x,P(x)可以比较大,所以不同Gi生成的/theta_ij将很可能取到相同的值。而连续分布则几乎不可能发生取值相等这种事情。
(对比一下LDA,Gi相当于LDA中的/thetai,/thetaij相当于LDA中的Zm,n(或者对应的参数/phi_z), xij相当于LDA中的wm,n. G0是Gi的先验分布,在LDA中,这个先验概率有K个离散的取值,而在HDP中,这个取值可以有无限个。这两个模型非常相似)
ii)这种做法具有推广性,如在树状的图模型中,上层的G作为下层DP的基础模型,他们将具备一个相同的离散的取值范围。
(如树状的图模型可以用在多个corpus的文档中,比单个文档集合多了目录分支等)
*HDP对应的CRP称为Chinese restaurant franchise
该过程假设有多个restaurant,每个restaurant对应一个子过程。每个桌子的客人公用一个dish,对应于之前的球的颜色。所有的restaurant共用同一份菜单。
详细的资料可以参见
1.Bayesian Nonparametric Learning:Expressive Priors for Intelligent Systems
2.Hierarchical Dirchlet process
- DPMM和HDP 非参数贝叶斯(2)
- DP混合模型参数分析(DPMM)
- HDP 2.2 ( Hadoop 2.6 ) 集群的内存参数配置和参数调优 (Yarn/MapReduce2)
- HDP,CDH和PHD
- Ambari + HDP 升级 (Ambari 2.2.2 - 2.4.1 + HDP 2.4.2 - 2.5.0)
- 关于Dirichlet过程混合模型(DPMM)的理解
- ambari和HDP升级文档
- python关键字和非关键字参数(可变长参数)
- HDP YARN MapReduce参数调优建议
- Dirichlet Process-非参数贝叶斯(1)
- 参数方法和非参数方法
- 在HortonWorks HDP 2.1 和2.2 集群间进行数据迁移 包括(Hive数据表)
- DPMM(狄利克雷过程混合模型)浅解和添加似然函数的问题
- 非参数贝叶斯模型概述
- tempate类型参数和非类型参数和callback
- HDP学习--Managing HDFS Storage(00)
- HDP学习--Managing HDFS Storage(01)
- HDP学习--Managing HDFS Storage(02)
- A == B ?
- 成为JavaGC专家Part I — 深入浅出Java垃圾回收机制
- 成为JavaGC专家Part I — 深入浅出Java垃圾回收机制
- spring mvc 多文件 上传 按天生成目录 ,删除,限制为图片代码,实际项目中应用代码
- 桥接模式——Head First Design Patterns
- DPMM和HDP 非参数贝叶斯(2)
- Opencv 例程讲解 4 ----图片容器Mat
- 夜读Web Service
- 基于标准的多媒体视频对讲系统
- Xshell 乱码 解决
- 考试的题
- 性能调优、虚拟机、垃圾回收、软硬件协调相关文章和视频 — Part1
- 在Windows平台上绿色安装postgresQL
- 1. Android学习路线图介绍