LDA原理(3)知识储备之PLSA

来源:互联网 发布:2017淘宝买家信息出售 编辑:程序博客网 时间:2024/06/01 09:57

在讲PLSA概率潜在语义模型(似乎比LSA更容易解释 啊)之前
我们先定义一些表示:

  • D表示语料库
  • M表示该语料库中有M篇文档
  • V表示语料库中的词的个数(当然重复的词只算一次)
  • N表示语料库中词的词频(重复的也算),那么V个词,每个词的- 词频记为ni
  • d就是语料库中的一篇文档,wi表示文档中的第i个词

注意这是“概率”而不是贝叶斯派的思想哦,下面的过程中你也可以思考如果是贝叶斯派应该会怎么想这个问题。

如果我们假设一篇文章的生成过程是这样的,首先确定这个文章涉及几个主题(每个主题呢,都有和这个主题相关的词),开始写文章,每写一个词的时候,都要选择主题,然后在这个主题下选择词。每一个词都是这样产生,直到文章结束。

整个过程就像是上帝掷骰子,当你开始要写某一篇文章(例如第m篇)的时候,你明确文章几个主题(如K个主题,每个主题分别是语文、数学、等),就相当于上帝现做了一个“doc-topic”骰子,这个骰子有K个面,对应K个主题(参数
θm=(θm1,θm2,...,θmk)),
然后上帝又做了K个骰子“topic-word”骰子(每个骰子的参数是
ψ1,ψ2,...,ψK)。
现在写文章就是上帝掷骰子,每写一个词,就是上帝先投“doc-topic”骰子,如结果是第i面(对应一个主题),那么在拿起对应的第i个“topic-word”骰子,掷出一个词。
那么第m篇文档dm的某一个词w的生成概率:

p(w⃗ |dm)=z=1Kp(w|z)p(z|dm)=z=1Kψzwθmz

如果这篇文档w⃗ 由n个词组成,那么这篇文档的生成概率就是:
p(w⃗ |dm)=i=1np(wi|dm)=i=1nz=1Kψzwiθmz