PLSA(Probability Latent Semantic Analysis)
来源:互联网 发布:知乎 中国外交手段 编辑:程序博客网 时间:2024/05/18 02:43
PLSA是更为先进的方法。他解决了同义词和多义词的问题,利用了强化的期望最大化算法(EM)来训练隐含类(潜在类)。而且相对了LSA,有了坚实的统计学基础。
PLSA的建模——层面模型
层面模型就是关联于潜在类Z的共现表的潜在可变模型。在层面模型中,文档被视为潜在的K个层面的混合。每一个层面就是word对于z(潜在类)的概率分布。
PLSA的建模——数据的共现
对于每一组(w,d)都使之与潜在变量z关联。
PLSA的建模——预测words
已经的是文档的概率,首先要计算潜在类Z根据条件概率D,生成单词W根据条件概率Z。
PLSA的公式:
P(w,d) =∑P(c)P(d | c)P(w | c) = P(d)∑P(c | d)P(w | c)
注:这里的C和上面说的Z是一样的。
公式解析:第一个公式是对称公式,在这个公式中,W和D都是以相同的方式(都用了W和D基于C的条件概率)通过潜在类C处理的。第二个公式是非对称公式。在这个公式中,对于每一个D,先根据D的条件概率计算C,然后根据C的条件概率计算W。事实上,这个公式可以扩展成计算任何一对离散变量的共现。因为我们的W和D是已知的,但是Z是未知的,所以我们的重心放在求Z上。那么如何求Z呢?
PLSA的缺点:
PLSA有时会出现过拟合的现象。所谓过拟合(Overfit),是这样一种现象:一个假设在训练数据上能够获得比其他假设更好的拟合,但是在测试数据集上却不能很好的拟合。此时我们就叫这个假设出现了overfit的现象。出现这种现象的主要原因是训练数据中存在噪音或者训练数据太少。
PLSA与LDA最大的区别就在于,doc--topic这一级,PLSA把这一级的所有变量都看作模型的参数,即有多少文档那么就有多少模型的参数;而LDA引入了一个超 参数,对doc--topic这一个层级进行model。这样无论文档有多少,那么最外层模型显露出来的(对于doc--topic)就只有一个超参数。
解决办法,要避免过拟合的问题,PLSA使用了一种广泛应用的最大似然估计的方法,期望最大化。PLSA中训练参数的值会随着文档的数目线性递增。PLSA可以生成其所在数据集的的文档的模型,但却不能生成新文档的模型。
强化的期望最大化算法中引入了控制参数beta。
Beta值起始是1,紧着逐渐减少。引入beta的目的就是为了避免过拟合的问题,在beta中,过拟合和不充分拟合的状态被定义。具体的算法是:
让beta的初始值为1,然后根据待训练数据来测试模型,如果成功,则使用该beta,如果不成功,则收敛。收敛的意思就是使得beta = n*beta, n<1。
Whereas pLSA models the probability of each co-occurrence as a mixture of conditionally independent multinomial distributions.
In this model, d are documents, w are words, and z are a set of latent topics which give a distribution over words P(w|z). d and w are observed, but z is a latent (unobserved) variable.
N is the number of documents in the collection, and Wd is the number of words per document.
This model generates documents as: For each document d, we sample a topic according to P(z | d). We then sample a word from that topic according to P(w | z). This is repeated for each word in the document.
In pLSA the goal is to find the topic specific word distributions P(w|z) and corresponding document specific mixing proportions P(z|d) which make up the document specific word distribution P(w|d).
原文地址:http://blog.sina.com.cn/s/blog_50d4c97b0100n6x3.html
- PLSA(Probability Latent Semantic Analysis)
- LSA (Latent Semantic Analysis) & PLSA (Probability Latent Semantic Analysis)
- Probability Latent Semantic Analysis (PLSA) 模型 学习笔记
- Probabilistic Latent Semantic Analysis(PLSA)
- plsa(Probabilistic Latent Semantic Analysis) 概率隐语义分析
- Latent Semantic Analysis
- Latent semantic analysis (LSA)
- Latent Semantic Analysis(LSA)
- Latent Semantic Analysis
- Latent Semantic Analysis
- [学习笔记]学习主题模型(Topic Model)和PLSA( probabilistic latent semantic analysis)
- [学习笔记]主题模型(Topic Model)和PLSA( probabilistic latent semantic analysis)
- [学习笔记]学习主题模型(Topic Model)和PLSA( probabilistic latent semantic analysis)
- [学习笔记]学习主题模型(Topic Model)和PLSA( probabilistic latent semantic analysis)
- [学习笔记]学习主题模型(Topic Model)和PLSA( probabilistic latent semantic analysis)
- Latent Semantic Analysis(LSA)
- Latent semantic analysis note(LSA)
- Latent semantic analysis note(LSA)
- MySQL表的四种分区类型
- SPRING-MVC访问静态文件,如jpg,js,css
- CodeForces 547C. Mike and Foam 莫比乌斯反演
- COMSTAT
- Selenium2(WebDriver)总结(一)---启动浏览器、设置profile&加载插件
- PLSA(Probability Latent Semantic Analysis)
- 做报表
- 第九章与运行环境交互2015-05-28
- DM3730 x-loader 分析 三
- Android进步之路二:进度对话框的示例代码以及详解
- HDU 1711 Number Sequence (简单KMP)
- 2011斯坦福大学iOS应用开发教程学习笔记(第三课)Objective-C
- 混合云备份
- echarts学习