PLSA(Probability Latent Semantic Analysis)

来源:互联网 发布:知乎 中国外交手段 编辑:程序博客网 时间:2024/05/18 02:43

PLSA是更为先进的方法。他解决了同义词和多义词的问题,利用了强化的期望最大化算法(EM)来训练隐含类(潜在类)。而且相对了LSA,有了坚实的统计学基础。

PLSA的建模——层面模型

层面模型就是关联于潜在类Z的共现表的潜在可变模型。在层面模型中,文档被视为潜在的K个层面的混合。每一个层面就是word对于z(潜在类)的概率分布。

PLSA的建模——数据的共现

对于每一组(w,d)都使之与潜在变量z关联。

PLSA的建模——预测words

已经的是文档的概率,首先要计算潜在类Z根据条件概率D,生成单词W根据条件概率Z。

PLSA的公式:

P(w,d) =∑P(c)P(d | c)P(w | c) = P(d)∑P(c | d)P(w | c)

注:这里的C和上面说的Z是一样的。

公式解析:第一个公式是对称公式,在这个公式中,W和D都是以相同的方式(都用了W和D基于C的条件概率)通过潜在类C处理的。第二个公式是非对称公式。在这个公式中,对于每一个D,先根据D的条件概率计算C,然后根据C的条件概率计算W。事实上,这个公式可以扩展成计算任何一对离散变量的共现。因为我们的W和D是已知的,但是Z是未知的,所以我们的重心放在求Z上。那么如何求Z呢?

PLSA的缺点:

PLSA有时会出现过拟合的现象。所谓过拟合(Overfit),是这样一种现象:一个假设在训练数据上能够获得比其他假设更好的拟合,但是在测试数据集上却不能很好的拟合。此时我们就叫这个假设出现了overfit的现象。出现这种现象的主要原因是训练数据中存在噪音或者训练数据太少。

PLSA与LDA最大的区别就在于,doc--topic这一级,PLSA把这一级的所有变量都看作模型的参数,即有多少文档那么就有多少模型的参数;而LDA引入了一个超 参数,对doc--topic这一个层级进行model。这样无论文档有多少,那么最外层模型显露出来的(对于doc--topic)就只有一个超参数。

解决办法,要避免过拟合的问题,PLSA使用了一种广泛应用的最大似然估计的方法,期望最大化。PLSA中训练参数的值会随着文档的数目线性递增。PLSA可以生成其所在数据集的的文档的模型,但却不能生成新文档的模型。

强化的期望最大化算法中引入了控制参数beta。

Beta值起始是1,紧着逐渐减少。引入beta的目的就是为了避免过拟合的问题,在beta中,过拟合和不充分拟合的状态被定义。具体的算法是:

让beta的初始值为1,然后根据待训练数据来测试模型,如果成功,则使用该beta,如果不成功,则收敛。收敛的意思就是使得beta = n*beta, n<1。

 

Whereas pLSA models the probability of each co-occurrence as a mixture of conditionally independent multinomial distributions.

pLSA( <wbr><wbr>continuation <wbr><wbr>1)

In this model, d are documents, w are words, and z are a set of latent topics which give a distribution over words P(w|z). d and w are observed, but z is a latent (unobserved) variable.

N is the number of documents in the collection, and Wd is the number of words per document.

This model generates documents as: For each document d, we sample a topic according to P(z | d). We then sample a word from that topic according to P(w | z). This is repeated for each word in the document.
pLSA( <wbr><wbr>continuation <wbr><wbr>1) 
In pLSA the goal is to find the topic specific word distributions P(w|z) and corresponding document specific mixing proportions P(z|d) which make up the document specific word distribution P(w|d).


原文地址:http://blog.sina.com.cn/s/blog_50d4c97b0100n6x3.html


0 0
原创粉丝点击