Dirichlet distribution的两种理解方式

来源：互联网发布：关于网络的好处编辑：程序博客网时间：2024/05/19 14:38

Dirichlet distribution，对于做主题模型（topic model）研究特别的重要，因为很多模型之中都需要它作为先验分布。

本来这个分布Wikipedia和大多数的教科书已经讲得非常清楚，没有必要在这里多介绍，但是最近在理解Dirichlet process过程中，发现从另外一个角度来理解Dirichlet Distribution，对于理解Dirichlet Process有一定的帮助，特此介绍如下。

传统的Dirichlet Distribution的形式：

P(x_1, x_2, ..., x_k| \alpha_1, \alpha_2, ..., \alpha_k) \prop \prod_1 ^k (x_i)^(\alpha_i - 1)

Dirichlet Distribution是分布的分布，其中\sum x_i = 1。

另外一种形式：

P(x_1, x_2, ..., x_k| \alpha, M) \prop \prod_1 ^k (x_i)^(\alpha*M_i - 1)
其中，\sum M_i = 1。从而M可以看做一个分布。可以记为：P ~ Dir(\alpha, M)

下面我们来看看Dirichlet process的定义：

对于一个空间，已经有一个分布M，和一个正实数\alpha，如果对于该空间的任意可数划分A1, A2, ..., An，都有

(G(A1), G(A2), ..., G(An)) ~ Dir(\alpha*M(A1), \alpha*M(A2), ..., \alpha*M(An)) = Dir(\alpha, M)

其中，Dir是一个dirichlet distribution, M是[M(A1), M(A2), ..., M(An)]的概率向量。我们就称G是一个Dirichlet Process。

注意观察这个定义与Dirichlet Distribution的第二种形式的异同，Dirichlet distribution描述了空间上的一种划分情况下的分布，而Dirichlet Process描述了整个空间上的所有划分的情况下的分布情况，M是人们对于分布的主观看法，而\alpha就是描述如果抽样的话，会多好地接近分布M。即M是Base Distribution，\alpha是精度。

这样，我们就可以把Dirichlet Distribution和Dirichlet process更加统一地来看待，同时加深我们对于它们的理解。