Topic modeling LDA by Blei

来源:互联网 发布:房子夕晒软件 编辑:程序博客网 时间:2024/05/21 20:58

Blei 先生是LDA的鼻祖,先放图镇住,阿弥陀佛~



1、《general introduction to topic modeling》

       主要介绍了topic modeling主要用于解决什么问题(search、browse、orginaze)、LDA(latent dirichlet allocation)、概率模型,lda预测隐形变量之类的,介绍了LDA的基本原理(要读懂,需要强大的数学基础),我只是粗略的读了一下

      PS.想要了解LDA的数学基础,推荐一篇文章《LDA数学八卦》


2、《topic models》by DAVID M. BLEI & JOHN D. LAFFERTY

      主要介绍:

      chapter  2:介绍LDA以及使用后验分布

      chapter 3: 如何用平均场逼近后验分布的参数(实际上使用Gibbs sampling的人比较多)

      chapter 4:两种变形的LDA主题模型,Dynamic Topic models(DTM)和correlated topic model(CTM),分别用来发现主题之间关系和主题随时间变化

      论文中提到的有用的一点是:使用TFIDF对词汇集选取top K词汇效果比较好,计算量也下降了


3、《Dynamic Topic Models》  by DAVID M. BLEI & JOHN D. LAFFERTY

     粗略看了一遍,数学基础比较薄弱,实在看不懂关于概率分布的公式,大概意思是:每年articals的topic源自于上一年topic的演变,时间刻度参与体现在两点:

    一是用含有高斯噪音的状态空间模型代替LDA中的Dirichlet分布;二是用平均α的逻辑正态分布代替LDA中的Dirichlet分布


4、《Online LDA》 by Matthew D. Hoffman & David M. Blei & Francis Bach

        粗略看了一遍,关于数学方面还是有很大欠缺,导致看不懂。Online LDA更多的考虑数据量很大的情况,单纯使用变分贝叶斯(VB)计算量会比较复杂,针对这个问题,blei提出使用online VB,基于online stochastic optimization(随机优化),文本以stream的方式输入,用完就丢掉,不需要存储和收集。

   

推荐一篇总结的很好的博文《基于LDA的Topic Model变形》,介绍Blei的一些相关论文

http://blog.csdn.net/hexinuaa/article/details/6021069   

如果想继续深入了解,可以去看看Blei列出来的关于Topic Modeling的参考书目

http://www.cs.princeton.edu/~mimno/topics.html

原创粉丝点击