Notes—LDA中的gamma函数和几个分布

来源:互联网 发布:临沂seo 编辑:程序博客网 时间:2024/05/23 15:16

ref:http://blog.csdn.net/v_JULY_v/article/details/41209515

(详细推导见该链接)


        LDA模型中用到的数学知识:

  1. 一个函数:gamma函数
  2. 四个分布:二项分布、多项分布、beta分布、Dirichlet分布
  3. 一个概念和一个理念:共轭先验和贝叶斯框架
  4. 两个模型:pLSA、LDA
  5. 一个采样:Gibbs采样
      
      gamma函数和几个分布如下:
  • gamma函数,阶乘在实数域上的推广
                   

                   
  • 二项分布(Binomial distribution)
    二项分布是从伯努利分布推进的。伯努利分布,又称两点分布或0-1分布,是一个离散型的随机分布,其中的随机变量只有两类取值,非正即负{+,-}。而二项分布即重复n次的伯努利试验,记为 。简言之,只做一次实验,是伯努利分布,重复做了n次,是二项分布。二项分布的概率密度函数为:

    
    对于k = 0, 1, 2, ..., n,其中的是二项式系数(这就是二项分布的名称的由来),又记为。回想起高中所学的那丁点概率知识了么:想必你当年一定死记过这个二项式系数就是
  • 多项分布,是二项分布扩展到多维的情况
    多项分布是指单次试验中的随机变量的取值不再是0-1的,而是有多种离散值可能(1,2,3...,k)。比如投掷6个面的骰子实验,N次实验结果服从K=6的多项分布。其中

    多项分布的概率密度函数为:
  • Beta分布,二项分布的共轭先验分布
    给定参数,取值范围为[0,1]的随机变量 x 的概率密度函数
    其中
。 
   注:便是所谓的gamma函数,下文会具体阐述。
  • Dirichlet分布,是beta分布在高维度上的推广
    Dirichlet分布的的密度函数形式跟beta分布的密度函数如出一辙:
    其中
    
    至此,我们可以看到二项分布和多项分布很相似,Beta分布和Dirichlet 分布很相似,而至于Beta分布是二项式分布的共轭先验概率分布,而狄利克雷分布(Dirichlet分布)是多项式分布的共轭先验概率分布