LDA Gibbs Sampling公式推导

来源:互联网 发布:武藏s300点编程 编辑:程序博客网 时间:2024/06/06 19:18

Gibbs Sampling

Background

所有的推导可以说都是根据这张图片:

αRM×K

θmRK

βRK×V

ϕkRV

LDA的目的就是为了在给定α,β的情况下,求出θϕ

推导1 — 联合分布

求解 p(s,z|α,β)=p(w|z,β)p(z|α)

两个部分p(w|z,β), p(z|α)分别考虑。

对于第一部分: p(w|z,β)=p(x|z,ϕ)p(ϕ|β)dϕ

  • p(x|z,ϕ)=Kk=1p(w|zk,ϕk)=Kk=1Vv=1p(w|zk,ϕk,v)=ϕntkk,v,其中ntk表示的是所有文档中属于topic k的词v的个数。
  • p(ϕk|β)=Dir(ϕk|β)=1B(β)Vv=1ϕβv1k,v

所以p(w|z,β)=Kk=1Vv=1ϕnvk,vKk=11B(β)Vv=1ϕβv1k,vdϕk,v=Kk=11B(β)Vv=1ϕnvk+βk1k,vdϕk,v

而又有因为Kk=1pαk1kdpk=B(α)

能得到p(w|z,β)=Kk=1B(nk+β)B(β),其中nk=[n1k,n2k,...,nVk],表示所有文档中,属于topic k的词v的个数。

同理,对于第二部分p(z|α)

p(z|α)=p(z|θ)p(θ|α)dθ=Mm=11B(α)Kk=1θnkm+α1m,k)=Mm=1B(nm+α)B(α),其中nm=[n1m,n2m,...,nKm]nkm表示第m个文档中属于第k个主题的词的个数。

所以综上p(w,z|α,β)=Kk=1B(nk+β)B(β)Mm=1B(nm+α)B(α)

推导2 — 条件分布

求解:p(zi=k|zi,w)

首先,要得到p(zi=k|zi,w)=p(w,z)P(w,zi)

根据上面,有p(w,z|α,β)=Kk=1B(nk+β)B(β)Mm=1B(nm+α)B(α)

所以在固定αβ之后,可以得到p(w,z)P(w,zi)=Kk=1B(nk+β)B(β)Mm=1B(nm+α)B(α)Kk=1B(nk,i+β)B(β)Mm=1B(nm,i+α)B(α)=B(nk+β)B(bk,i+β)B(nm+α)B(nm,i+α)

B(nk,i+β)=Vv=1Γ(nv,i+βv)Γ(v=1Vnv,i+βv)=Γ(n1+β1)Γ(n2+β2)...Γ(ni1+βi)...Γ(nV+βV)Γ(Vv=1nv,i+βv)

B(nk+β)=Vv=1Γ(nv+βv)Γ(v=1Vnv,i+βv)=Γ(n1+β1)Γ(n2+β2)...Γ(ni1+βi)...Γ(nV+βV)Γ(Vv=1nv+βv)

所以B(nk+β)B(nk,i+β)=Γ(ni+βi)Γ(ni1+βi)Γ(Vv=1nv,i+βv)Γ(Vv=1nv+βv)

又因为Γ(x+1)=xΓ(x)

所以能够化简为B(nk+β)B(nk,i+β)=ni1+βiVv=1(nv,i)+βv

同理B(nm+α)B(nm,i+α)=ni1+αiKk=1nk,i+αk

所以得到p(zi=k|zi,w)ni1+βiVv=1nt,i+Vβvnk1+αiVv=1nt,i+Vαv

iβi=β,αi=α,则得到

p(zi=k|zi,w)ni1+βVv=1nt,i+Vβnk1+αVv=1nt,i+Vα

推导3 — 后验

根据Dirichlet和Multi-nomial的共轭性,也就是当先验是Dirichlet,likelihood是Multi-nomial,那么后验也是Dirichlet。也就是先验分布Dir(p|α),后验分布Dir(p|α+x)。使用Dirichlet分布的期望来估计Multinomial分布的参数。

E(P)=(α1αi,α2αi,...,αKαi)

因此,只要能够识别出对于文档中的每一个单词的隐含主题,就能够求出两个公式。

p(z|w)=p(z,w)p(w),而p(w)=i=1nk=1Kp(wi|zi=k)p(zi=k),计算量太大,所以我们才使用了前面证明的方法,来求得p(zi=k|zi,w)

所以综合上述

θ=[θ1,θ2,...,θM]

θm,k=nm,k+αKk=1nm,k+Kα

ϕ=[ϕ1,ϕ2,...,ϕK]

ϕk,w=nk,w+βwVv=1nk,i+Vβ

Appendix

写完了才发现有高清无码的paperParameter estimation for text analysis

代码实现在这里:github repo

这一章节内容也是参考了另外两篇不错的博客,然后对里面的公式进行更细致的推导

博客1

博客2

0 0
原创粉丝点击
热门问题 老师的惩罚 人脸识别 我在镇武司摸鱼那些年 重生之率土为王 我在大康的咸鱼生活 盘龙之生命进化 天生仙种 凡人之先天五行 春回大明朝 姑娘不必设防,我是瞎子 重置手机忘了密码怎么办 sp下行短信费扣怎么办 hr公司业务员招不到人怎么办 卖房中介被房倒压房子怎么办 电脑放不了dvd光盘怎么办 股东迟迟不交齐股本金怎么办 wps转pdf就乱了怎么办 被有用分期骗了怎么办 找不到以前有用分期的账号怎么办 打工去韩国不懂韩语怎么办? 想去韩国整容没钱怎么办 专接本没接上怎么办 抄写经文写错了怎么办 在外地修车被宰怎么办 国外汇款公司名称写错了怎么办 增值税专票没有机器编码怎么办 发票右上角的编码打不全怎么办 税票名称开错了怎么办 开票名称开错了怎么办 退休党员不交党费怎么办 cad打不出来字怎么办 用cad打不出来字怎么办 打字总打错字母怎么办 mac做ppt卡住了怎么办 mac的ppt卡住了怎么办 淘宝店铺被屏蔽了怎么办 淘宝申请售后卖家拒绝怎么办 淘宝投诉卖家入口关闭怎么办 遇见最喜欢孩子的父母怎么办 房屋备案表丢了怎么办 淘宝发布商品没有品牌怎么办 电子发票名称写错了怎么办 合同写错了划掉怎么办 进京证日期错了怎么办 买车时谈的协议与合同不一致怎么办 新车上牌找不到流水号怎么办 开票数量比入库数量少怎么办 我贷款的app忘了怎么办 网贷名字忘了怎么办 附件太大邮件发不出去怎么办 孩子出生足印单子丢了怎么办