LDA文本建模(3)——pLSA模型和LDA模型
来源:互联网 发布:sql修改字段数据类型 编辑:程序博客网 时间:2024/05/18 06:23
统计文本建模的问题就是:追问这些观察到的语料库中的词序列是如何生成的。
1)LDA文本建模(1-2)里应该明白的结论
- beta分布是二项式分布的共轭先验概率分布:
- “对于非负实数和,我们有如下关系
------------------(1)
其中对应的是二项分布的计数。针对于这种观测到的数据符合二项分布,参数的先验分布和后验分布都是Beta分布的情况,就是Beta-Binomial 共轭。”
- 狄利克雷分布(Dirichlet分布)是多项式分布的共轭先验概率分布:
- “ 把从整数集合延拓到实数集合,从而得到更一般的表达式如下:
------------------(2)
针对于这种观测到的数据符合多项分布,参数的先验分布和后验分布都是Dirichlet 分布的情况,就是 Dirichlet-Multinomial 共轭。 ”
- 频率派和贝叶斯派思考问题的模式:
贝叶斯派的观点则截然相反,他们认为待估计的参数是随机变量,服从一定的分布,而样本X 是固定的,由于样本是固定的,所以他们重点研究的是参数的分布。他们的思维模式是:先验分布 + 样本信息 后验分布 。上述思考模式意味着,新观察到的样本信息将修正人们以前对事物的认知。
2)LDA模型的基础模型:Unigram model、mixture of unigrams model,以及跟LDA最为接近的pLSA模型
统计文本建模的问题就是:追问这些观察到的语料库中的词序列是如何生成的。
2.1)Unigram Model:
假设:
和抛硬币的Binomial不同,抛V个面骰子的实验应该对应Mulitnomial,。
则:
形象的理解是:
上图中的表示在文本中观察到的第n个词,n∈[1,N]表示该文本中一共有N个单词。加上方框表示重复,即一共有N个这样的随机变量。其中,p和α是隐含未知变量:
- p是词服从的Multinomial分布的参数
- α是Dirichlet分布(即Multinomial分布的先验分布)的参数。
一般α由经验事先给定,p由观察到的文本中出现的词学习得到,表示文本中出现每个词的概率。
辛运的是,我们已知公式(2):------------------(2),
另外,公式(23)中的Delta表示:
2.2)Mixture of unigrams model
2.3)pLSA(Probabilistic Latent Semantic Analysis)模型
在上面的Mixture of unigrams model中,我们假定一篇文档只由一个主题生成,可实际中,一篇文章往往有多个主题,只是这多个主题各自在文档中出现的概率大小不一样。比如介绍一个国家的文档中,往往会分别从教育、经济、交通等多个主题进行介绍。那么在pLSA中,文档是怎样被生成的呢?
图形化表示为:
蛋疼:这边的p(z)是由上帝投骰子选择的,而Mixture of unigrams model中的p(z)居然没介绍是怎么来的。。。
3)LDA(Latent Dirichlet Allocation)模型
3.1)LDA简介
上面概率图可以分解为以下两个物理过程:
对于第一个物理过程:
对于第二个物理过程:
3.2)LDA参数估计
3.3)LDA模型的训练和推理
- LDA文本建模(3)——pLSA模型和LDA模型
- 【机器学习】主题模型(二):pLSA和LDA
- 【转】主题模型--pLSA,LDA
- 机器学习概念总结笔记(四)——KMeans、混合高斯模型、LDA、PLSA、Apriori、FP-Growth、
- pLSA 和 LDA
- 【LDA】LDA主题模型
- LDA模型
- LDA 模型
- LDA模型
- LDA文本建模(1)——数学基础
- LDA(LDA文档主题生成模型)
- LDA,pLSA等图像分类的生成模型
- LDA文本建模(2)——MCMC和Gibbs Sampling
- 机器学习复习——pLSA、LDA
- LDA文本建模
- LDA和PLSA的区别
- 深入理解LDA和pLSA
- 深入理解LDA和pLSA
- vs 开发工具 中开发mfc项目在输出对话框中输出打印的方法
- taglib 标签库分析
- ECSHOP常用修改
- poj1088 滑雪 记忆化搜索
- 继承HorizontalScrollView的QQ5.0侧滑菜单(三)
- LDA文本建模(3)——pLSA模型和LDA模型
- 关于融云SDK1.4.3的学习的总结(一)
- JDBC元数据,Blob用法总结
- log4j:WARN No appenders could be found for logger 解决方法
- css3新特性之border,background和背景渐变
- 配置UltraEdit调用编译器编译(C/C++为例)
- mongoDB笔记1-quick start
- 小功能的实现记录
- 第五周项目3——人数不定的工资类