LDA(Latent Dirichlet Allocation)主题模型
来源:互联网 发布:大数据平台是什么意思 编辑:程序博客网 时间:2024/05/21 07:58
LDA于2003年由 David Blei, Andrew Ng和 Michael I. Jordan提出,因为模型的简单和有效,掀起了主题模型研究的波浪。虽然说LDA模型简单,但是它的数学推导却不是那么平易近人,一般初学者会深陷数学细节推导中不能自拔。于是牛人们看不下去了,纷纷站出来发表了各种教程。国内方面rickjin有著名的《LDA数学八卦》,国外的Gregor Heinrich有著名的《Parameter estimation for text analysis》。其实有了这两篇互补的通俗教程,大家沉住心看个4、5遍,基本就可以明白LDA为什么是简单的了。那么其实也没我什么事了,然而心中总有一种被大牛点播的豁然开朗的快感,实在是不吐不快啊。
什么是主题
因为LDA是一种主题模型,那么首先必须明确知道LDA是怎么看待主题的。对于一篇新闻报道,我们看到里面讲了昨天NBA篮球比赛,那么用大腿想都知道它的主题是关于体育的。为什么我们大腿会那么聪明呢?这时大腿会回答因为里面出现了“科比”、“湖人”等等关键词。那么好了,我们可以定义主题是一种关键词集合,如果另外一篇文章出现这些关键词,我们可以直接判断他属于某种主题。但是,亲爱的读者请你想想,这样定义主题有什么弊端呢?按照这种定义,我们会很容易给出这样的条件:一旦文章出现了一个球星的名字,那么那篇文章的主题就是体育。可能你马上会骂我在瞎说,然后反驳说不一定,文章确实有球星的名字,但是里面全部在讲球星的性丑闻,和篮球没半毛钱关系,此时主题是娱乐还差不多。所以一个词不能硬性地扣一个主题的帽子,如果说一篇文章出现了某个球星的名字,我们只能说有很大概率他属于体育的主题,但也有小概率属于娱乐的主题。于是就会有这种现象:同一个词,在不同的主题背景下,它出现的概率是不同的。并且我们都可以基本确定,一个词不能代表一种主题,那么到底什么才是主题呢?耐不住性子的同学会说,既然一个词代表不了一种主题,那我就把所有词都用来代表一种主题,然后你自己去慢慢意会。没错,这样确实是一种完全的方式,主题本来就蕴含在所有词之中,这样确实是最保险的做法,但是你会发现这样等于什么都没做。老奸巨猾的LDA也是这么想的,但他狡猾之处在于它用非常圆滑手段地将主题用所有词汇表达出来。怎么个圆滑法呢?手段便是概率。LDA认为天下所有文章都是用基本的词汇组合而成,此时假设有词库
文章在讲什么
给你一篇文章读,然后请你简要概括文章在讲什么,你可能会这样回答:80%在讲政治的话题,剩下15%在讲娱乐,其余都是废话。这里大概可以提炼出三种主题:政治,娱乐,废话。也就是说,对于某一篇文章,很有可能里面不止在讲一种主题,而是几种主题混在一起的。读者可能会问,LDA是一种可以从文档中提炼主题模型,那他在建模的时候有没有考虑这种情形啊,他会不会忘记考虑了。那您就大可放心了,深谋远虑的LDA早就注意到这些了。LDA认为,文章和主题之间并不一定是一一对应的,也就是说,文章可以有多个主题,一个主题可以在多篇文章之中。这种说法,相信读者只能点头称是。假设现在有
文章是如何生成的
在前面两小节中,LDA认为,每个主题会对应一个词汇分布,而每个文档会对应一个主题分布,那么一篇文章是如何被写出来的呢?读者可能会说靠灵感+词汇。LDA脸一沉,感觉完蛋,灵感是什么玩意?LDA苦思冥想,最后没办法,想了个馊主意,它说
- 确定主题和词汇的分布
- 确定文章和主题的分布
- 随机确定该文章的词汇个数
N - 如果当前生成的词汇个数小于
N 执行第5步,否则执行第6步 - 由文档和主题分布随机生成一个主题,通过该主题由主题和词汇分布随机生成一个词,继续执行第4步
- 文章生成结束
只要确定好两个分布(主题与词汇分布,文章与主题分布),然后随机生成文章各个主题比例,再根据各个主题随机生成词,词与词之间的顺序关系被彻底忽略了,这就是LDA眼中世间所有文章的生成过程!聪明的读者肯定觉得LDA完全就是一个骗子,这样认为文章的生成未免也太过天真了吧。然而事实就是如此,这也是为什么说LDA是一个很简单的模型。幸好我们这是用LDA来做主题分析,而不是用来生成文章,而从上上节的分析我们知道,主题其实就是一种词汇分布,这里并不涉及到词与词的顺序关系,所以LDA这种BOW(bag of words)的模型也是有它的简便和实用之处的。
LDA数学分析
上一小节,我们忽略了一个问题,就是如何确定主题和词汇分布,还有文档与词汇的分布,但是要搞明白这个问题,就避免不了一些数学分析了。再次强烈推荐rickjin的《LDA数学八卦》还有Gregor Heinrich有著名的《Parameter estimation for text analysis》。此处我只做一些关键扼要的理论推导 :-)
多项式分布
回忆一下概率论学的东西,假设一个硬币正面朝上的概率是
V 代表我们字典的词汇个数K 代表主题的个数M 代表文章的个数ϕk→ 代表第k个主题的多项式分布参数,长度为V ,那么Φ 是一个K∗V 的矩阵,每一行代表一个主题的多项式分布参数θm→ 代表第m 篇文章的多项式分布参数,长度为K ,那么Θ 是一个M∗K 的矩阵,没一行代表一篇文章的多项式分布参数Nm 代表第m 篇文章的长度zm,n 代表第m 篇文章第n 个词由哪个主题产生的wm,n 代表第m 篇文章第n 个词
那么对于第
Dirichlet分布
忘记告诉大家,LDA属于江湖中的贝叶斯学派,在贝叶斯学派眼中,像上面提到的
Gibbs 采样算法
实际应用中,我们通常是有一堆文章,然后要我们去自动提取主题,或者通过现有的文章训练出LDA模型,然后预测新的文章所属主题分类。也就是我们的兴趣点在于求出
判断新文章的主题分布
由上一小节,我们可以通过大量文章求解出LDA这个模型,那么对于一篇新的文章,如何计算它的主题分布呢?一个方式是将文章加入到原来的训练集合里面
LDA的Gibbs采样实现
对于程序员来说,看惯代码,没有代码有点无所适从,有没有简单LDA的实现漂亮代码呢?答案是有的,LingPipe里面的LatentDirichletAllocation这个类,完整地按照Gregor Heinrich有著名的《Parameter estimation for text analysis》介绍的算法实现了,代码非常简单,并且可读性极高,建议抓来一看,必然大有毗益。此处我们贴出Gregor中提供的伪代码,以供查看:
- 初始化阶段,出乎意料的简单,只要初始化4个统计量,分别是:
- 文档
m 对应主题k 的计数:nkm - 文档
m 的词汇数:nm - 主题
k 对应的词汇为t 的计数:ntk - 主题
k 的词汇数:nk
- 文档
- 将
nkm,nm,ntk,nk 内存清0,然后根据以下程序随机初始化值:- 遍历每一个文档
m∈[1,M] - 遍历每个词汇
n∈[1,Nm] - 从多项式分布
Mult(1/K) 得到一个采样值:zmn=k nkm=nkm+1 nm=nm+1 ntk=ntk+1 nk=nk+1
- 从多项式分布
- 遍历每个词汇
- 遍历每一个文档
- Gibbs采样过程,以下是一个采样周期的执行过程:
- 遍历每一个文档
m∈[1,M] - 遍历每个词汇
n∈[1,Nm] - 对于当前的
wm,n 的主题k 对应的词汇t 执行:nkm=nkm−1 nm=nm−1 ntk=ntk−1 nk=nk−1 - 根据
p(zi=k|z¬i,w⃗ ) 获得一个采样值:k^=zm,n 并执行:nk^m=nk^m+1 nm=nm+1 ntk^=ntk^+1 nk^=nk^+1
- 对于当前的
- 遍历每个词汇
- 遍历每一个文档
难以置信的简单,一般在收敛之前,需要跑一定数量的采样次数让采样程序大致收敛,这个次数一般称为:burnin period。我们希望从采样程序中获得独立的样本,但是显然以上的采样过程明显依赖上一个采样结果,那么我们可以在上一次采样后,先抛弃一定数量的采样结果,再获得一个采样结果,这样可以大致做到样本独立,这样真正采样的时候,总有一定的滞后次数,这样的样本与样本的间隔称为:SampleLag。
LDA为什么有效
如果您反复读了前面反复强调的两篇LDA科普大作,并清楚了解它的实现细节,相信另一个问题会慢慢萦绕在心中——为什么LDA能够work?LDA为什么比pLSA强?强在何处?
Quora上面有一个相对直观的解释,我大概总结一下,由于LDA用Dirichlet作为Prior分布,而作为Prior的Dirichlet在其分布参数
《Notes on Multinomial sparsity and the Dirichlet concentration parameter α》
这篇note提到的Dirichlet其实可以看成几个Gamma分布变换而来,具体变换证明可以参照Quora另一个解答:Construction of Dirichlet distribution with Gamma distribution。另一个好处是,多了先验分布的模型比pLSA更加健壮,不容易导致overfiting,如果看回上面推导Gibbs Sampling的公式,Dirichlet其实起到一种Smooth的效果。可以再参考Kevin Gimpel写的《Modeling Topics》,对于几种常见基础的主题模型的对比,也可以解除不少困惑。
参考文献
- 《LDA数学八卦》
- 《Parameter estimation for text analysis》
- 《gibbs sampling for the uninitiated》
- 《text mining and topic models》
- 《A Theoretical and Practical Implementation Tutorial on Topic Modeling and Gibbs Sampling》
- 《Probabilistic Latent Semantic Analysis》
- LingPipe
- 《Modeling Topics》
- 《Notes on Multinomial sparsity and the Dirichlet concentration parameter α》
- Why does LDA works?
- Construction of Dirichlet distribution with Gamma distribution
- Latent Dirichlet Allocation(LDA)主题模型理论
- LDA(Latent Dirichlet Allocation)主题模型算法
- Latent Dirichlet Allocation(LDA)主题模型理论
- LDA(Latent Dirichlet Allocation)主题模型算法
- LDA(Latent Dirichlet Allocation)主题模型算法
- LDA(Latent Dirichlet Allocation)主题模型算法
- LDA(Latent Dirichlet Allocation)主题模型算法
- LDA(Latent Dirichlet Allocation)主题模型
- LDA 主题模型(latent dirichlet allocation) 介绍
- 一个LDA(Latent Dirichlet Allocation)主题模型的Java实现
- Introduction to Latent Dirichlet Allocation (LDA主题模型入门)
- latent Dirichlet allocation (LDA)
- Latent Dirichlet Allocation(LDA)
- Latent Dirichlet Allocation (LDA)
- Latent Dirichlet Allocation (LDA)
- Latent Dirichlet Allocation 主题模型算法
- 学习Topic Model(主题模型)--Latent Dirichlet Allocation(LDA) 的一些摘要
- Latent Dirichlet Allocation(LDA)主题模型算法实现及源码解析
- 程序员独有的礼物
- 【Python】【PyQt】ComboBox
- Android API23(6.0)以上手机必须手动检测读取权限
- Java 多线程 任务间使用管道进行输入/输出
- SVM(支持向量机)算法原理和实际应用
- LDA(Latent Dirichlet Allocation)主题模型
- <戏说春秋>第四关 老马识途
- 《从零开始学Swift》学习笔记(Day 56)——Swift编码规范之命名规范
- Android 内存优化
- ABAQUS 二次开发 简单插件制作
- scrollview上的button
- jquery 遍历table中的超链接
- 分布式系统的事务处理
- Google广告AdMob的集成和使用