Beta分布与Dirichilet分布

来源：互联网发布：网上图书馆数据库编辑：程序博客网时间：2024/05/17 23:26

一.Beta分布与Dirichilet分布简述

beta分布是关于x∈[0,1]的概率密度，表示x取值的概率，它包含了2个参数：α和β。数学形式如下：

Beta(α,β): prob(x|α,β) = [x^(α-1)*(1-x)^(β-1)] / B(α,β)，

其中Beta函数B(α,β)是x^(α-1)*(1-x)^(β-1)在[0,1]上的积分，是一个规范化因子，使得 prob(x|α,β)的取值∈[0,1]。B(α,β)又可以写成 (α!β!) / (α+β)! 的形式。当把x可以看做一个变量X的取值概率（即概率密度），用更直观的方式x=p，beta分布的本质化为“关于分布的分布”。这时，可以把x扩展为一个2维的向量，(p,1-p)，分别对应X的两个可能值(x1,x2)的取值概率。Beta(α,β): prob( (p,1-p)|α,β) = [p^(α-1)*(1-p)^(β-1)] / [ (α!β!) / (α+β)! ]。把这一情况扩展到 N 维向量的情况，即某个变量X具有 N 个可能的取值，分别为{x1,x2,...,xn}，它们的取值概率分别为μ={μ1,μ2,...,μn}，μ1+μ2+...+μn = 1，同样对应N个参数α={α1,α2,...,αn}。这时Beta分布演变为Dirichlet分布：

Dir(α) = prob(μ|α) = [μ1^(α1-1)*(μ2)^(α2-1)*...*(μn)^(αn-1) ] / [ (α1!α2!...αn!) / (α1+α2+...+αn)! ]
Dirichlet分布用一个公式来描述“观察到一个N维向量各种取值”的概率。（Gives a formula which tells how likely we are to observe a particular N-tuple）。

这个N维向量v包含N个变量pi，所以Dirichlet分布是一个多变量分布，每个变量pi的取值是一个满足于∑pi=1的概率值。而Dirichlet描述v的概率，所以说它是概率的概率。

二.Multinomial 与Dirichilet的区别

与Dirichlet公式形式类似，但：观察的向量不同，Dir是事件各个可能结果概率向量的概率，Mul是事件各可能结果观察次数的概率；指数不一样，Dir是参数-1，Mul是观察次数。
Dir用一组参数，来对一个随机事件的多个结果出现概率的一个组合出现的概率进行模拟。Mul用于对同一实验，多次进行试验，最后统计各结果次数的可能性。

三.Conjugate Prior（共轭先验）

在看二项分布与Beta分布时，通常会被告知，Beta分布是二项分布的共轭先验，Dirichilet分布是多想分布的共轭先验。对于共轭先验，之前看PRML的时候理解过一遍：http://blog.csdn.net/polly_yang/article/details/8250161

如今再看，共轭先验对贝叶斯推理的意义在于使得后验分布和先验具有相同的函数形式，即：后验分布 = 似然函数* 先验分布/ P(X)。

****选择与似然函数共轭的先验分布，得到的后验分布只是参数调整后的先验分布****