LDA原理（3）知识储备之PLSA

来源：互联网发布：2017淘宝买家信息出售编辑：程序博客网时间：2024/06/01 09:57

在讲PLSA概率潜在语义模型（似乎比LSA更容易解释啊）之前
我们先定义一些表示:

D表示语料库
M表示该语料库中有M篇文档
V表示语料库中的词的个数（当然重复的词只算一次）
N表示语料库中词的词频（重复的也算），那么V个词，每个词的- 词频记为ni
d就是语料库中的一篇文档，wi表示文档中的第i个词

注意这是“概率”而不是贝叶斯派的思想哦，下面的过程中你也可以思考如果是贝叶斯派应该会怎么想这个问题。

如果我们假设一篇文章的生成过程是这样的，首先确定这个文章涉及几个主题（每个主题呢，都有和这个主题相关的词），开始写文章，每写一个词的时候，都要选择主题，然后在这个主题下选择词。每一个词都是这样产生，直到文章结束。

整个过程就像是上帝掷骰子，当你开始要写某一篇文章（例如第m篇）的时候，你明确文章几个主题（如K个主题，每个主题分别是语文、数学、等），就相当于上帝现做了一个“doc-topic”骰子，这个骰子有K个面，对应K个主题（参数
θm→=(θm1→,θm2→,...,θmk→)），
然后上帝又做了K个骰子“topic-word”骰子（每个骰子的参数是
ψ1→,ψ2→,...,ψK→）。
现在写文章就是上帝掷骰子，每写一个词，就是上帝先投“doc-topic”骰子，如结果是第i面（对应一个主题），那么在拿起对应的第i个“topic-word”骰子，掷出一个词。
那么第m篇文档dm的某一个词w的生成概率：

p (w ⃗ | d m) = \sum z = 1 K p (w | z) p (z | d m) = \sum z = 1 K ψ z w θ m z

如果这篇文档

w⃗ 由n个词组成，那么这篇文档的生成概率就是：

p (w ⃗ | d m) = \prod i = 1 n p (w i \to | d m) = \prod i = 1 n \sum z = 1 K ψ z w i θ m z

阅读全文

0 0