LDA gibbs

来源:互联网 发布:mac地址冲突的后果 编辑:程序博客网 时间:2024/06/10 05:38

今天看了几个不错的博客和文档说的是lda topic model。

其实最早接触这个是我在百分点实习的那会,那会还按照文章和国外的一个java实现代码,写了个python版本的,代码很简单。当时用的数据集有点大,发现单机lda有点慢,并且不是一般的慢啊。


整体思路就是上面这个。


评价lda模型的好坏可以参考[4],[5]:


其中简单的公式如下:


模型越好loglikelihood越大,perplexity越小。

分享个别人的收敛曲线:



贴上几个比较不错的博客:

[1] http://blog.csdn.net/pennyliang/article/details/8704789.

[2] http://www.crescentmoon.info/?p=296

[3] http://blog.csdn.net/yangliuy/article/details/8457329

[4] http://www.flickering.cn/nlp/2014/07/lda%E5%B7%A5%E7%A8%8B%E5%AE%9E%E8%B7%B5%E4%B9%8B%E7%AE%97%E6%B3%95%E7%AF%87-1%E7%AE%97%E6%B3%95%E5%AE%9E%E7%8E%B0%E6%AD%A3%E7%A1%AE%E6%80%A7%E9%AA%8C%E8%AF%81/

[5] Perplexity. http://en.wikipedia.org/wiki/Perplexity.

[6]

剩下就是看lda如何并行?

在腾讯,我看到真正能应用到工业界是王益他们组做的《Towards Topic Modeling for Big Data》系统,简称Peacock系统。据说可以挖掘百万语义,并且能很好解释长尾词。

0 0