PLSA(Probability Latent Semantic Analysis)

来源：互联网发布：知乎中国外交手段编辑：程序博客网时间：2024/05/18 02:43

PLSA是更为先进的方法。他解决了同义词和多义词的问题，利用了强化的期望最大化算法（EM）来训练隐含类（潜在类）。而且相对了LSA，有了坚实的统计学基础。

PLSA的建模——层面模型

层面模型就是关联于潜在类Z的共现表的潜在可变模型。在层面模型中，文档被视为潜在的K个层面的混合。每一个层面就是word对于z(潜在类)的概率分布。

PLSA的建模——数据的共现

对于每一组（w,d）都使之与潜在变量z关联。

PLSA的建模——预测words

已经的是文档的概率，首先要计算潜在类Z根据条件概率D，生成单词W根据条件概率Z。

PLSA的公式：

P(w,d) =∑P(c)P(d | c)P(w | c) = P(d)∑P(c | d)P(w | c)

注：这里的C和上面说的Z是一样的。

公式解析：第一个公式是对称公式，在这个公式中,W和D都是以相同的方式（都用了W和D基于C的条件概率）通过潜在类C处理的。第二个公式是非对称公式。在这个公式中，对于每一个D，先根据D的条件概率计算C，然后根据C的条件概率计算W。事实上，这个公式可以扩展成计算任何一对离散变量的共现。因为我们的W和D是已知的，但是Z是未知的，所以我们的重心放在求Z上。那么如何求Z呢？

PLSA的缺点：

PLSA有时会出现过拟合的现象。所谓过拟合（Overfit），是这样一种现象：一个假设在训练数据上能够获得比其他假设更好的拟合，但是在测试数据集上却不能很好的拟合。此时我们就叫这个假设出现了overfit的现象。出现这种现象的主要原因是训练数据中存在噪音或者训练数据太少。

PLSA与LDA最大的区别就在于，doc--topic这一级，PLSA把这一级的所有变量都看作模型的参数，即有多少文档那么就有多少模型的参数；而LDA引入了一个超参数，对doc--topic这一个层级进行model。这样无论文档有多少，那么最外层模型显露出来的（对于doc--topic）就只有一个超参数。

解决办法，要避免过拟合的问题，PLSA使用了一种广泛应用的最大似然估计的方法，期望最大化。PLSA中训练参数的值会随着文档的数目线性递增。PLSA可以生成其所在数据集的的文档的模型，但却不能生成新文档的模型。

强化的期望最大化算法中引入了控制参数beta。

Beta值起始是1，紧着逐渐减少。引入beta的目的就是为了避免过拟合的问题，在beta中，过拟合和不充分拟合的状态被定义。具体的算法是：

让beta的初始值为1，然后根据待训练数据来测试模型，如果成功，则使用该beta，如果不成功，则收敛。收敛的意思就是使得beta = n*beta， n<1。

Whereas pLSA models the probability of each co-occurrence as a mixture of conditionally independent multinomial distributions.

pLSA( continuation 1)

In this model, d are documents, w are words, and z are a set of latent topics which give a distribution over words P(w|z). d and w are observed, but z is a latent (unobserved) variable.

N is the number of documents in the collection, and Wd is the number of words per document.

This model generates documents as: For each document d, we sample a topic according to P(z | d). We then sample a word from that topic according to P(w | z). This is repeated for each word in the document.
pLSA( continuation 1)
In pLSA the goal is to find the topic specific word distributions P(w|z) and corresponding document specific mixing proportions P(z|d) which make up the document specific word distribution P(w|d).

原文地址：http://blog.sina.com.cn/s/blog_50d4c97b0100n6x3.html

0 0