LSA and PLSA笔记
来源:互联网 发布:淘宝店铺装修 编辑:程序博客网 时间:2024/06/06 05:12
1. 引子
Bag-of-Words 模型是NLP和IR领域中的一个基本假设。在这个模型中,一个文档(document)被表示为一组单词(word/term)的无序组合,而忽略了语法或者词序的部分。BOW在传统NLP领域取得了巨大的成功,在计算机视觉领域(Computer Vision)也开始崭露头角,但在实际应用过程中,它却有一些不可避免的缺陷,比如:
- 稀疏性(Sparseness): 对于大词典,尤其是包括了生僻字的词典,文档稀疏性不可避免;
- 多义词(Polysem): 一词多义在文档中是常见的现象,BOW模型只统计单词出现的次数,而忽略了他们之间的区别;
- 同义词(Synonym): 同样的,在不同的文档中,或者在相同的文档中,可以有多个单词表示同一个意思;
从同义词和多义词问题我们可以看到,单词也许不是文档的最基本组成元素,在单词与文档之间还有一层隐含的关系,我们称之为主题(Topic)。我们在写文章时,首先想到的是文章的主题,然后才根据主题选择合适的单词来表达自己的观点。在BOW模型中引入Topic的因素,成为了大家研究的方向,这就是我们要讲的Latent Semantic Analysis (LSA) 和 probabilitistic Latent Semantic Analysis (pLSA),至于更复杂的LDA和众多其他的Topic Models,以后再详细研究。
2. LSA简介
已知一个文档数据集
LSA的基本思想就是,将document从稀疏的高维Vocabulary空间映射到一个低维的向量空间,我们称之为隐含语义空间(Latent Semantic Space).
如何得到这个低维空间呢,和PCA采用特征值分解的思想类似,作者采用了奇异值分解(Singular Value Decomposition)的方式来求解Latent Semantic Space。标准的SVD可以写为:
其中,
注意到如果我们利用内积来计算文档与文档之间的的相似度,即
由LSA在训练集合上得到的参数,当一个新的文档向量
LSA的优点
- 低维空间表示可以刻画同义词,同义词会对应着相同或相似的主题;
- 降维可去除部分噪声,是特征更鲁棒;
- 充分利用冗余数据;
- 无监督/完全自动化;
- 与语言无关;
LSA的不足
- 没有刻画term出现次数的概率模型;
- 无法解决多义词的问题;
- SVD的优化目标基于L-2 norm 或者是 Frobenius Norm的,这相当于隐含了对数据的高斯噪声假设。而term出现的次数是非负的,这明显不符合Gaussian假设,而更接近Multi-nomial分布;
- 对于count vectors 而言,欧式距离表达是不合适的(重建时会产生负数);
- 特征向量的方向没有对应的物理解释;
- SVD的计算复杂度很高,而且当有新的文档来到时,若要更新模型需重新训练;
- 维数的选择是ad-hoc的;
3. pLSA
类似于LSA的思想,在pLSA中也引入了一个Latent class,但这次要用概率模型的方式来表达LSA的问题,如下图:
在这个probabilitistic模型中,我们引入一个Latent variable
- 首先根据分布
p(di) 随机抽样选择一个文档di ; - 选定文档后,根据
p(zk|di) 抽样选择文档表达的语义zk ; - 选定语义后,根据
p(wj|zk) 选择文档的用词;
这样,我们得到了一个观测对
用图模型来表示以上公式如Figure3中的(a),而(b)是pLSA模型的另外一种等价形式,公式可写作:
模型确定好了,已知的数据集N,我们可以利用Maximum Likelihood准则来确定模型的参数,目标函数可写作:
此目标函数也可以解释为使
EM求解
在似然值
既然似然值
利用琴生不等式和概率小于1的性质,我们可以得到如下推导:
这样,我们就把
利用拉格朗日法,我们可以得到优化目标:
对此目标函数求导,我们可以得到EM算法中的M-step:
观察可以得到,E-step与M-step互相依赖,可以证明每一步都使得下界
pLSA与LSA的关系
由Figure4可以看到pLSA与LSA之间的对应关系。其中
pLSA的优势
- 定义了概率模型,而且每个变量以及相应的概率分布和条件概率分布都有明确的物理解释;
- 相比于LSA隐含了高斯分布假设,pLSA隐含的Multi-nomial分布假设更符合文本特性;
- pLSA的优化目标是是KL-divergence最小,而不是依赖于最小均方误差等准则;
- 可以利用各种model selection和complexity control准则来确定topic的维数;
pLSA的不足
- 概率模型不够完备:在document层面上没有提供合适的概率模型,使得pLSA并不是完备的生成式模型,而必须在确定document i的情况下才能对模型进行随机抽样;
- 随着document和term 个数的增加,pLSA模型也线性增加,变得越来越庞大;
- 当一个新的document来到时,没有一个好的方式得到$p(d_i)$;
- EM算法需要反复的迭代,需要很大计算量;
针对pLSA的不足,研究者们又提出了各种各样的topic based model, 其中包括大名鼎鼎的Latent Dirichlet Allocation (LDA),在此就不再多说了。
4. 参考文献
- Thomas Hofmann, “Unsupervised Learning by Probabilistic Latent Semantic Analysis,” Machine Learning 42, no. 1 (January 1, 2001): 177-196.
- LSA and PLSA笔记
- LSA and PLSA笔记
- LSA and PLSA笔记
- LSA and PLSA 学习
- LSA和 PLSA学习笔记
- LSA/PLSA
- LSA & PLSA
- 【转】PLSA 与 LSA
- LSA及pLSA
- LSA和PLSA
- 从SVD到LSA&PLSA
- topic model (LSA、PLSA、LDA)
- LSA与pLSA(1)
- LSA与pLSA(2)
- 主题模型TopicModel:Unigram、LSA、PLSA模型
- LSA,pLSA原理及其代码实现
- LSA (Latent Semantic Analysis) & PLSA (Probability Latent Semantic Analysis)
- 主题模型TopicModel:Unigram、LSA、PLSA主题模型详解
- 2012-10-19 11gR2 concepts page 327 - 454
- 高性能mysql
- Android中StatFs获取系统/sdcard存储(剩余空间)大小
- Struts2总结之Action和Result
- View的DrawableState(即StateListDrawable)变化的源码分析
- LSA and PLSA笔记
- C++第8周项目2-5参考解答
- Struts2总结之拦截器
- 分手快乐,祝你快乐,你找不到比我更好的。
- 2013年各大小IT公司待遇,绝对真实,一线数据!(转好网)
- Struts2总结之控制流程
- TC35发送中文短信调试笔记
- BURG 引导也疯狂
- HDU 1029