Topic Model的分类总结(LDA变种)

来源:互联网 发布:数据报表怎么做 编辑:程序博客网 时间:2024/06/05 00:41

原文地址:http://hi.baidu.com/ouyanggaoyan/item/5b5c01d4c518871cd78ed0d7#713670-tsina-1-29064-128ff9f28d958dae738be418601ffbcd


Topic Model的分类总结(LDA变种)

Topic models主要可以分为四大类:


1.无监督无层次结构, 主要有:

    (1)PLSA(Hofmann 1999), 

    (2) LDA(Blei et al., 2003), 

    (3)Correlated Topic Model (Blei and Lafferty, 2006 )

         CTM主要是为了克服标准LDA模型不能建模话题在文档中出现的相关性的缺点,将LDA中文档话题分布服从的Dirichlet分布改为Logistic正态分布。例如CTM论文中举的一个例子是在Science杂志语料中,一篇遗传学文章很可能也跟健康和疾病有关,但是却不大可能跟射线天文学有关。

    因为Logistic正态分布不再是Multinomial分布的共轭分布,因此模型的解变得更加复杂。对此,作者使用的方法是,在变分推理的过程中,继续使用Taylor展开式以简化似然函数下界的复杂性。

                                     图X Correlated Topic Model 模型的图形表示


         07年CTM详细版本:CTM2007

           CTM的变分推导细节见另一个学者的文档:Variational EM Algorithms for Correlated Topic Models


    (4) PAM(Li and McCallum, ICML 2006),

    Concept Topic Model


2. 无监督有层次结构, 主要有: 

     HLDA(Blei NIPS 2003), 

     HDP(Teh et al., 2005):标准LDA模型中话题的个数K需要已知,然而很多时候确定K的大小是一件困难的事情。HDP能够根据数据自动确定K的大小。

     HPAM(Mimno et al., ICML 2007)


3. 有监督无层次结构主要有: S-LDA( Blei et al., 2007), Disc-LDAMM-LDAAuthor-ModelLabeled LDA(Ramage et al., 2009), PLDA(Wang et al., 2009) 等


4. 有监督有层次结构主要有: hLLDA(Petinot et al., ACL 2011), HSLDA(Hierarchically Supervised Latent Dirichlet Allocation, Perotte et al., NIPS 2012)



除上述集中类型的话题模型外,还有一些半监督的话题模型,主要有:

Semi-LDA(Wang et al. 2007), SSHLDA(Semi-Supervised Hierarchical Topic Model, Mao EMNLP 2012)


另一些LDA变种主要是为了描述一些链接信息而作的扩展:


Link LDA (2004)

Topic-Link LDA(Liu et al., ICML 2009)


RTM (Chang and Blei, AISTATS 2009): Relational topic models: 文档之间有连接关系,即对一个文档网络建模。使用一个响应变量来表示文档之间的关系。


Author-topic model(Rosen-Zvi et al., UAI 2004): 将文档作者也考虑进去


DTM(Blei and Lafferty, ICML 2006) Dynamic Topic Models,话题随时间的演变


STM(Pathak, et al., KDD workshop 2008)Social Topic Models for Community Extraction


Social-Network Analysis Using Topic Model SIGIR2012
0 0
原创粉丝点击