LDA gibbs

来源：互联网发布：mac地址冲突的后果编辑：程序博客网时间：2024/06/10 05:38

今天看了几个不错的博客和文档说的是lda topic model。

其实最早接触这个是我在百分点实习的那会，那会还按照文章和国外的一个java实现代码，写了个python版本的，代码很简单。当时用的数据集有点大，发现单机lda有点慢，并且不是一般的慢啊。

整体思路就是上面这个。

评价lda模型的好坏可以参考[4],[5]：

其中简单的公式如下：

模型越好loglikelihood越大，perplexity越小。

分享个别人的收敛曲线：

贴上几个比较不错的博客：

[1] http://blog.csdn.net/pennyliang/article/details/8704789.

[2] http://www.crescentmoon.info/?p=296

[3] http://blog.csdn.net/yangliuy/article/details/8457329

[4] http://www.flickering.cn/nlp/2014/07/lda%E5%B7%A5%E7%A8%8B%E5%AE%9E%E8%B7%B5%E4%B9%8B%E7%AE%97%E6%B3%95%E7%AF%87-1%E7%AE%97%E6%B3%95%E5%AE%9E%E7%8E%B0%E6%AD%A3%E7%A1%AE%E6%80%A7%E9%AA%8C%E8%AF%81/

[5] Perplexity. http://en.wikipedia.org/wiki/Perplexity.

[6]

剩下就是看lda如何并行？

在腾讯，我看到真正能应用到工业界是王益他们组做的《Towards Topic Modeling for Big Data》系统，简称Peacock系统。据说可以挖掘百万语义，并且能很好解释长尾词。

0 0