LDA文本建模(1)——数学基础

来源:互联网 发布:homebrew 卸载mysql 编辑:程序博客网 时间:2024/05/18 06:25

  1. 二个函数:Gamma函数、Beta函数
  2. 五个分布:二项分布(Binomial)、多项分布(Multnomial)、Gamma分布、Beta分布、Dirichlet分布
  3. 一个概念:共轭先验


1)Gamma函数


gamma函数性质:



gamma函数和log(gamma)函数都是凸函数。


2)Beta函数


性质:


3)Gamma分布(可略去)

(对于连续函数,我们说**分布,就是指该连续**函数的概率密度函数)

对Gamma函数的定义作变形有:




4)二项分布(略去)


5)Beta分布

(对于连续函数,我们说**分布,就是指该连续**函数的概率密度函数)

beta分布是指一组定义在(0,1)区间的连续概率分布,有两个参数alpha和beta,且alpha和beta都大于0。

beta分布的概率密度函数:



随机变量X服从参数为alpha和beta的beta分布通常写作:


6)多项分布


7)Dirichlet分布

简单的理解,Dirichlet 分布就是一组连续多元变量的概率分布,是Beta分布在高维度上的推广。



8)Beta-Binomial 共轭

例如,下面的m1和m2分别表示抛硬币时正面向上和反面向上的次数;p表示正面向上的概率。



9)Dirichlet-Multinomial共轭

对于非负实数向量,有:



10)Beta/Dirichlet分布的一个性质







参考:

http://blog.csdn.net/v_july_v/article/details/41209515

rickjin的LDA数学八卦(力荐,本文部分图片和公式来自于此文档)网页版:http://www.flickering.cn/tag/lda/,PDF版:http://emma.memect.com/t/9756da9a47744de993d8df13a26e04e38286c9bc1c5a0d2b259c4564c66132

0 0