LDA(Latent Dirichlet Allocation)相关论文阅读小结

来源:互联网 发布:mod安装软件 编辑:程序博客网 时间:2024/05/17 23:44

关于主题挖掘,LDA(Latent Dirichlet Allocation)已经得到了充分的应用。本文是我对自己读过的相关文章的总结。
1. 《LDA数学八卦》http://pan.baidu.com/s/18KUBG
把标准LDA的由来讲解得通俗易懂,细致入微。真的是了解LDA的最佳入门读物。
Gamma函数:Gamma函数
通过分部积分可以推导其具有递归性质 这里写图片描述,因此Gamma函数可以当成是阶乘在实数集上的拓展。具有性质:这里写图片描述。这个性质很重要,在后来的LDA推理中会用到。
二项分布:这里写图片描述
泊松分布:这里写图片描述
Gamma分布:这里写图片描述,若做变换x=βt,得到如下分布函数
这里写图片描述其中α为形状参数,决定了分布曲线的形状,β为速率参数,决定了曲线有多陡。
这里写图片描述
注:泊松分布是由二项式分布求极限所得,Gamma分布是泊松分布在正实数集上的连续化版本。
Beta函数可由Gamma函数推理得到的。
Beta函数:这里写图片描述,由这里写图片描述,可以推理得到这里写图片描述推理过程见维基百科-B函数
Beta分布是指一组定义在(0,1)区间的连续概率分布,有两个参数α, β>0。其概率密度函数为这里写图片描述,利用Gamma函数可以把函数从证书集合延展到实数集合,因此上式可以表示为:
这里写图片描述
另α=k,β=n-k+1,得到一般意义上的Beta分布:
这里写图片描述
Beta分布和二项分布的关系:Beta-Binomial共轭,共轭就是指当数据符合二项分布时,参数的先验分布和后验分布都能保持Beta分布的形式。这在贝叶斯参数估计中很有用,先验分布+数据的知识=后验分布。
Dirichlet分布(狄利克雷分布)是Beta分布在高纬度上的推广。Dirichlet-Multinomial共轭,即数据符合多项式分布时,参数的先验分布和后验分布都能保持狄利克雷分布的形式。
MCMC(Markov Chain Monte Carlo)采样算法,即Metropolis-Hastings算法利用马尔可夫链的细致平衡条件,取得联合分布的采样,有了联合分布的采样就可以得到边缘分布,进而可以推断出贝叶斯中的后验分布。
Gibbs Sampling是针对Metropolis-Hastings算法在高维空间效率不高的情况,将其在二维空间的应用。即在Gibbs采样中马氏链的转移只是轮换的沿着坐标轴x轴和y轴做转移,最终可以得到P(x,y)的样本。也可以把Gibbs采样扩展到n维。
LDA是在文章主题模型的基础上加上了Dirichlet先验分布,将每篇文章表示为由几个主题组成,每个主题生成相应的单词,组成文章词语序列。
LDA Topic Model如下:
(1)上帝有两个坛子,第一个装的是doc-topic骰子,第二个装的是topic-word骰子;
(2)上帝随机从第二个坛子中独立的抽出了K个骰子,编号为1~K;
(3)每次生成一篇心得文档前,上帝先从第一个坛子中随机取一个doc-topic骰子,然后重复投掷这个骰子,为每个词生成一个topic编号z;重复如上过程处理每篇文档,生成语料中每个词的Topic编号,但是词尚未生成。
(4)从头到尾,对语料中的每篇文档中的每个topic编号z,选择K个topic-word骰子中编号为z的那个,投掷这个骰子,于是生成对应的word;
Gibbs 采样公式的物理意义就是在K个topic路径中进行采样。
LDA训练,就是估计模型中的M个文档主题分布的参数和K个主题词语分布参数:
(1)随机初始化:对语料中每篇文档中的每个词w,随机的赋予一个topic编号z;
(2)重新扫描语料库,对每个词w,按照Gibbs Sampling公式从新采样它的topic,在语料中更新;
(3)重复以上语料库的重新采样过程知道Gibbs Sampling收敛;
(4)统计语料库的topic-word共现频率矩阵,该矩阵就是LDA的模型;
LDA应用到新的文档主题分析:
(1)随机初始化,对当前文档中的每个词,随机的赋予一个topic编号z;
(2)重新扫描当前文档,按照Gibbs Sampling公式,其中topic-word分布参数已经训练好,对每个词w重新采样它的topic;
(3)重复以上过程直到Gibbs Sampling收敛;
(4)统计文档中的topic分布,该分布就是doc-topic分布。

疑问:Gibbs Sampling是如何做到重新采样单词w的主题topic的?

0 0
原创粉丝点击