PLSA模型简介
来源:互联网 发布:禅道bug管理linux 编辑:程序博客网 时间:2024/06/04 18:50
PLSA作为一种主题模型,提供了一种文本语义分析的手段,在自然语言处理中有很多应用,例如广告推荐、文本分类、改善搜索相关性等。关于PLSA的应用场景在下一篇博客中介绍,这里先对模型作一个简单的介绍,也算是对PLSA的推导过程做一个梳理。
PLSA:Probabilistic LatentSemantic Analysis,也即浅层概率语义分析,大体来讲就是通过概率手段计算潜在主题与word、document之间的关系。
传统的bag of words模型,通过word之间的匹配来计算文档之间的距离,对于汉语中的一词多义、同义词现象解决起来相对乏力。主题模型通过引入潜在主题维度,将文档投影到潜在主题上,将字面上不同的文档从语义上进行关联。
P(d):在海量文档中选出文档d的概率
P(z|d):文档d属于主题z的概率
p(w|z):在主题z的中选中单词w的概率
因此可以得出以下等式:
在文档di中选出单词wj的概率:
根据条件概率可以得到:
文档集合被选中的概率:
对p求极大似然估计可得到:
极大似然估计也即要估计出的值,以使L最大,也即是使观测到的状态(文档集合)概率最大。
因此目标函数为:
在目标函数中含有对数加法,所以的似然解问题没有闭式解,但可以采用EM算法,不断迭代逼近最优解。
根据全概率公式可得到:
因此:
根据Jenson不等式可以得到:
可以同步不断的求F的最大值从而来逼近L的最大值。因此该问题转化为了一个约束条件下的最优化问题,约束条件为:
通过拉格朗日函数方法可以得到优化的目标函数为:
注意F’中的变量是,对他们分别求导可以得到:
通过简单的变形可以得到:
(EM算法中的E步)
(EM算法中的M步)
(EM算法中的M步)
通过给定初始的,从而就可以计算出,然后又可以不同后者再计算出前者,以此不断迭代,从而逼近F的最优解。
至此,最后得到的也即PLSA模型的所求。
- PLSA模型简介
- 主题模型TopicModel:PLSA模型及PLSA的EM推导
- 【转】主题模型--pLSA,LDA
- 机器学习:主题模型:PLSA
- 主题模型TopicModel:Unigram、LSA、PLSA模型
- 主题模型分析模型——pLSA
- PLSA
- PLSA主题模型的EM算法推导
- 主题模型TopicModel:Unigram、LSA、PLSA主题模型详解
- LDA,pLSA等图像分类的生成模型
- 【机器学习】主题模型(二):pLSA和LDA
- 概率语言模型及其变形系列-PLSA及EM算法
- Probability Latent Semantic Analysis (PLSA) 模型 学习笔记
- PLSA模型的再理解以及源码分析
- PLSA隐变量主题模型的公式推导解惑
- LSA&PLSA—潜在语义模型&概率…
- LDA文本建模(3)——pLSA模型和LDA模型
- [学习笔记]学习主题模型(Topic Model)和PLSA( probabilistic latent semantic analysis)
- 第一章 初始Linux shell
- SVN:合并一个分支到主干
- 特殊三位数
- gedit中文乱码问题解决
- JDK自带VM分析工具jps,jstat,jmap,jconsole
- PLSA模型简介
- java 多线程(接口方式)
- JSP表单应用实例
- Thread dump 性能调用
- 万内素数
- Android解析JSON数据
- Struts2快速开发步骤~~~新手必学!!!!
- A Simple Game(巴什博弈和尼姆博弈)
- Android Bitmap用法总结