LDA主题模型和Gibbs Sampling 学习整理

来源：互联网发布：linux有几个版本编辑：程序博客网时间：2024/06/06 16:34

LDA主题模型和Gibbs Sampling 学习整理

LDA主题模型模型我主要参考的是LDA数学八卦、通俗理解LDA主题模型、主题模型-LDA浅析进行学习和理解的。非常感谢他们的分享。

LDA模型

Dirichlet-Multinomial共轭

LDA必须要理解这个共轭结构，其实也没什么难的，就是下面的公式：

先 验 分 布 为 D i r i c h l e t 分 布 + 样 本 属 于 多 项 分 布 \to 后 验 分 布 还 是 D i r i c h l e t 分 布

D i r (p \to | α \to) + M u l t (n \to | p \to, N) = D i r (p \to | α \to + n \to)

通俗的来说，就是LDA数学八卦所举的例子，从一个坛子里面的抽出一个骰子，然后根据骰子的面来组成语料库，那么坛子里面的骰子的分布就是先验分布，我们这里假设其为Dirichlet分布（相信为了方便起见，你不会使用其他先验分布），那么不断投掷骰子得到的语料库我们认定其为多项分布，那么根据我们不断投掷的结果，我们可以用贝叶斯公式很轻松的得到坛子里面骰子的分布，很巧的是，后验分布也是Dirichlet分布（这个是你就会明白假设先验分布为Dirichlet分布的好处了）。就是，先验分布都是Dirichlet分布，抽样分布为多项分布的特点我们称其为Dirichlet-Multinomial共轭。

LDA模型

引用自通俗理解LDA主题模型

首先必须了解这两个物理过程：: α→→θ→m→zm,n
表示使用参数α→ 生成了一个主题分布θm并且通过这个主题分布生成一个主题词 z→m,n。还原为物理过程为：在生成第m篇文档的时候，先从第一个坛子中抽取了一个doc-topic的骰子θ→m，然后投掷这个骰子生成了文档中第n个词的topic编号z→m,n.; β→→φ→k→ωm,n|k=zm,n
表示使用参数β→ 和主题词zm,n生成了一个词汇分布φ→k并且通过这个词汇的分布生成了一个词汇ωm,n，其物理过程为：在K个topic-word骰子φ→k中，挑选编号为k=zm,n的那个骰子进行投掷，然后生成word ωm,n.

这里我们必须要注意到的是，编号为k的骰子其每个面的概率亦或者说，其分布是根据参数β决定的，与k没有关系，它只是指定一个topic而已，与词汇的生成无关。也就说这两个物理过程是完全独立的.明白这一点很重要！！！

对于每篇文档m来说，

θ \to m = (θ (1) m, θ (2) m, \dots, θ (k) m, \dots, θ (K) m)

代表doc-topic骰子每个面的概率

n \to m = (n (1) m, n (2) m, \dots, n (k) m, \dots, n (K) m)

代表每个面出现的次数，也就是topic出现的次数。那么文档m对应的概率分布为：Mult(n→m|θ→m,Vm)。
同理,对于每个topic k来说，

代表topic-word骰子每个面的概率

代表每个面出现的次数，也就是每个单词的个数，那么topic k对应的概率分布为Mult(nk−→|φk−→,Vk)
其次利用Dirichlet-Multinomial共轭来解释这两个物理过程: 针对第一个物理过程α→→θ→m→z→m,n，
我们应该这样看待这个物理过程，把语料库按文档进行分组，然后为每个文档抽取Km个topics
我们认为α→→θ→m→z→m表示生成第m篇文档中的所有词对应的topics，并且有α→→θ→m对应Dirichlet分布，θ→m→z→m 对应Multinomial分布。
这里的θ→m是贝叶斯派所假设的变量，表示doc-topic骰子的每个面出现的概率，一共存在K个面。把θ→m看成一个骰子，重复投掷Km次。θ→m就是第m篇文档的主题分布
$θ \to m = (θ (1) m, θ (2) m, \dots, θ (k) m, \dots, θ (K) m)$
其分布p(θ→m|α→)=Dir(θ→m|α→)。α→是一个先验参数。
而经过抽样，这个抽样样本正好符合多项分布，即p(n→m)=Multinomial(n→m|θ→m,Km),K_m代表取样次数,这里指第m篇文档抽取topic的总数，也就是实验的次数，n→m代表每个topic出现的频率
$n \to m = (n (1) m, n (2) m, \dots, n (k) m, \dots, n (K) m)$
经过抽样之后呢，θ→m的分布就发生了变化，变成了后验分布p(θ→m|n→m)=Dir(θ→m|n→m+α→)
综上则有 $D i r (θ \to m | α \to) + M u l t (n \to m | θ \to m, K m) = D i r (θ \to m | n \to m + α \to)$; 处理第二个物理过程时，我们需要将 β→→φ→k→ω→m,n|k=zm,n 转换为 β→→φ→k→ω→k(具体过程参考LDA数学八卦)。我们应该这样看待这个物理过程，把语料库按topics进行分组，然后为每个topic抽取Vk个词汇
我们认为β→→φ→k→ω→k 表示生成第k个topic的所有单词，并且β→→φ→k 对应Dirichlet分布，φ→k→ω→k 对应Multinomial分布
φ→k是贝叶斯派所假设的变量，表示topic-doc骰子每个面出现的概率，一共存在V个面。把φ→k看成一个骰子，重复投掷Vk次。φ→k就是第k个topic的词分布
$φ \to k = (φ (1) k, φ (2) k, \dots, φ (v) k, \dots, φ (V) k)$
其分布为p(φ→k|β→)=Dir(φ→k|β→).β→只是一个先验参数。
而经过抽样，这个抽样正好符合多项分布，即p(n→k)=Mult(n→k|φ→k,Vk),Vk代表的是第k个topic抽取单词的个数，也是实验的次数，n→k代表每个单词出现的频率。
$n \to k = (n (1) k, n (2) k, \dots, n (v) k, \dots, n (V) k)$
综上则有 $D i r (φ \to k | β \to) + M u l t (n \to k | φ \to k, V k) = D i r (φ \to k | n \to k + β \to)$
V代表取样次数，这里特指语料库词汇的总数
n→k=(n(1)k,n(2)k,…,n(t)k,…,n(V)k) 其中n(t)k 表示在V词取样中的词word=t的个数。

LDA公式推导

看到这么多公式请不要害怕，我们将其一一分解就简单了很多: 首先(5)~(8)属于计算问题，只要将其满足的分布带入公式即可，其余就剩下计算部分了。
按多项式分布概率计算公式来说Mult(nm−→|θm−→,Km)=(Kmnm−→)∏Ki=1mθimnim，但是(Kmnm−→) 在词袋模型中并没有任何意义，因为topics之间是相互独立，并无顺序可言。故
$M u l t (n m - \to | θ m - \to, K m) = \prod i = 1 K m θ i m n i m$
表示在第m篇文档中，topics的概率分布为多项分布
Dir(θm−→|α→)=1Δ(α→)∏Kmi=1θimαi−1，其中 $Δ (α \to) = \int \prod i = 1 K m φ i m α i - 1 d φ m - \to$
同理
$M u l t (n k - \to | φ k - \to, V k) = \prod i = 1 V k φ i k β i - 1$
表示在k个topic中，words的概率分布为多项分布，words之间也没有顺序可言。
Dir(φk−→|β→)=1Δ(β→)∏Vmi=1nikβi−1,其中
$Δ (β \to) = \int \prod i = 1 V k θ i m β i - 1 d θ m \to$; 接下来是(1)~(4)部分

我认为从公式(2)推导到(3)时候
$p (ω k - \to | z k \to, β \to) \to p (ω k - \to | z k \to, β \to)$
有人可能会问zk→ 去哪了？它是怎么消失的呢？这里LDA数学八卦里面具体解释原因，个人猜想是因为这个时候不需要zk→，因为在将 β→→φ→k→ω→m,n|k=zm,n 转换为 β→→φ→k→ω→k的时候，我们就考虑文档，只考虑在每个topic中词汇的分布，那么zk→也就是失去了其概率意义，故而此处省略不计。

LDA总结

至此我们得到了LDA模型：（好干净的公式，不是吗？）

p (ω \to, z \to | α \to, β \to) = p (ω \to | z \to, β \to) \cdot p (z \to | α \to)

= \prod k = 1 K Δ ( n \to k + β \to ) Δ ( β \to ) \prod m = 1 M Δ ( n \to m + α \to ) Δ ( α \to )

Gibbs Sampling

这里我不介绍Gibbs Sampling的原理，详细请参考LDA数学八卦。

我们要明确的是Gibbs Sampling的真正采样的分布是p(z→|ω→): 根据Gibbs Sampling算法的要求，我们要求得任一个坐标轴i对应的条件分布p(zi=k|z→¬i,ω→)。假设已经观测到的词ωi=t，则由贝叶斯法则，我们很容易得到（别问我，我也不知道怎么容易得到的，）
$p (z i = k | z \to \neg i, ω \to) \propto p (z i = k, ω i = t | z \to \neg i, ω \to \neg i)$
上述公式的推算会涉及到两个Dirichlet-Multinomial共轭结构
$α \to \to θ m - \to \to z m - \to$
$β \to \to φ k - \to \to ω k - \to$
所以θm−→,φk−→的后验分布都是Dirichlet分布，即
$p (θ m - \to | z \neg i - \to, ω \neg i - \to -) = D i r (n m, \neg i - \to - - + α \to)$
$p (φ k - \to | z \neg i - \to, ω \neg i - \to) = D i r (n k, \neg i - \to - + β \to)$

Gibbs Sampling 公式推算

Dirichlet参数估计公式，详见通俗理解LDA

θ^m, k = n k m , \neg i + α k \sum K k = 1 ( n k m , \neg i + α k )

φ^k, t = n t k , \neg i + β t \sum V t = 1 ( n t k , \neg i + β t )

最终我们得到了LDA模型的Gibbs Sampling公式：

p (z i = k | z \to \neg i, ω \to) \propto n k m , \neg i + α k \sum K k = 1 ( n k m , \neg i + α k ) \cdot n t k , \neg i + β t \sum V t = 1 ( n t k , \neg i + β t )

好了，文章到此结束了，LDA学的不是很扎实，文章表述可能也有不清楚的地方，哪里有不正之处，还请赐教。这是我的邮箱 hzsong@outlook.com

0 0

LDA主题模型和Gibbs Sampling 学习整理

目录

LDA主题模型和Gibbs Sampling 学习整理

LDA模型

Dirichlet-Multinomial共轭

LDA模型

LDA公式推导

LDA总结

Gibbs Sampling

Gibbs Sampling 公式推算