LDA学习笔记---来自《Parameter estimation for text analysis》
来源:互联网 发布:学号 姓名 性别 sql 编辑:程序博客网 时间:2024/05/23 20:21
LDA学习笔记---来自《Parameter estimation for text analysis》
LDA的概率图如下图1所示:
参数的意思如图2所示:
根据模型,文章m的第n个词为t的概率为:
如果我们写出complete-data的联合分布,那么式子就是这样的:
通过对
因为一个语料库有很多篇文章,而且文章之间都是相互独立的,所以整个语料库的似然为
虽然LDA(latent Dirichlet allocation)是个相对简单的模型,对它直接推断一般也是不可行的,所以我们要采用近似推断的方法,比如Gibbs sampling。
Gibbs sampling
Gibbs sampling是MCMC(Markov-chain Monte Carlo)算法的一种特殊情况,经常用于处理高维模型的近似推断。MCMC方法可以通过马尔科夫链的平稳分布模拟高维的概率分布
- choose dimension i(random by permutation)。
- sample
xi fromp(xi|x⃗ ¬i) 。
为了构造Gibbs抽样,我们必须知道条件概率
对于那些含有隐藏变量
当样本
其中Kronecker delta
为了构造LDA的采样器,我们首先确定模型中的隐含变量为
这里忽略了超参数(hyperparameter)。可以看到分母部分十分难求,它包括了
LDA的联合分布
LDA的联合分布可以写成如下的式子:
因为式子中的第一部分与
意思是,语料中的
类似地,主体分布
然后联合分布就变成了
完全条件分布(full conditional)
我们令
这个式子需要注意的:
- 因为忽略了
p(wi) 这个常数,所以后来的式子是∝ 成正比。 - 对于第
m 篇文章中的第n 个词,其主题为k ,n(t)k=n(t)k,¬i+1,n(k)m=n(k)m,¬i+1 ,对于其他文档和其他主题都没有影响。
这个公式很漂亮,右边是
多项分布参数
根据图3和图4的Dirichlet-Multinomial结构,我们知道
最后,根据狄利克雷分布的期望
最后,整个LDA算法的流程图为
备注:
1.狄利克雷分布的后验概率公式:
2.由于狄利克雷分布为:
对于
参考文献:
1.主要来自《Parameter estimation for text analysis》
2.《LDA数学八卦》
- LDA学习笔记---来自《Parameter estimation for text analysis》
- 《Parameter estimation for text analysis》阅读笔记
- parameter estimation for text analysis
- Reading Note : Parameter estimation for text analysis
- “Parameter estimation for text analysis ”翻译
- pLSA与LDA中的parameter estimation笔记
- Linear discriminant analysis (LDA)学习笔记
- 线性判别分析(Linear Discriminant Analysis, LDA) 学习笔记 + matlab实现
- text mining and analysis 学习笔记week1
- LDA学习笔记
- LDA论文学习笔记
- LDA模型学习笔记
- 机器学习 cs229学习笔记4 (EM for factor analysis & PCA(Principal components analysis))
- LDA学习笔记5-LDA模型
- Discriminative Learned Dictionaries for Local Image Analysis学习笔记
- [深度学习论文笔记][ICCV 17 oral]Binarized Convolutional Landmark Localizers for Human Pose Estimation and...
- lda的concentration parameter
- Python For Data Analysis笔记
- Codeforces Beta Round #99 (Div. 1) C Mushroom Gnomes - 2(单点查询)
- HDU 4530 小Q系列故事——大笨钟 2013腾讯编程马拉松复赛第一场第一题
- windows系统上安装与使用Android NDK r5
- Poj 2352 Stars
- 树莓派中安装QT
- LDA学习笔记---来自《Parameter estimation for text analysis》
- GB28181 视频监控系统
- Android--Failed to allocate memory: 1455
- COCOS2D-X学习记录0
- 一个学习sed和awk的网站(非常好)
- linux下懒人打造自己的IDE
- applicationContext.xml无错有红叉,Error occured processing XML 'Provider org.apache.xerces.parsers.解决方案
- Linux服务器漏洞修复处理办法
- 设计模式之访问者模式