2.2 多项式变量

来源：互联网发布：聚游网络散人编辑：程序博客网时间：2024/06/14 01:00

1、基本概念

⼆元变量可以用来描述只能取两种可能值中的某一种这样的量。然而，我们经常会遇到可以取K个互斥状态中的某一种的离散变量，即：

x=(0,0,0,1,0,0)T

注意，这样的向量满足∑Kk=1xk=1。如果我们用参数k表示xk=1的概率，那么x的分布就是：

p (x ∣ μ) = \prod k = 1 K μ x k k

其中

μ=(μ1,μ2...μK)T。

可以看出，这个分布是归一化的，即：

\sum x p (x ∣ μ) = \sum k = 1 K μ k = 1

并且:

E (x ∣ μ) = \sum x p (x ∣ μ) x = (μ 1, μ 2 . . . μ K) T = μ

现在考虑一个有N个独立观测值x1,x2,...xn的数据集D。对应的似然函数的形式为:

p (D ∣ μ) = \prod n = 1 N \prod k = 1 K μ x n k k = \prod k = 1 K μ (\sum n x n k) k = \prod k = 1 K μ m k k

为了找到的最大似然解，我们需要关于 μk最大化 lnp(D∣μ)，并且要限制μk的和必须等于1。这可以通过拉格朗日乘数实现，即最大化:

\sum k = 1 K m k ln μ k + λ (\sum k = 1 K μ k - 1)

令关于μk导数为0，得到：

μ k = - m k λ

将结果代入 μk 的限制条件 ∑kμk=1 中，解得 λ=−N，于是我们得到最大似然解：

μ M L k = m k N

它是N次观测中，xk=1 的观测所占的⽐例。

由上述可知，多项式分布的共轭先验为：

p (μ ∣ α) \propto \prod k = 1 K μ α k - 1 k

其中

0≤μk≤1 且

∑kμk=1。这⾥，

α1,α2,...αk 是分布的参数，

α表⽰

(α1,α2,...αk)T 。注意，由于加和的限制，

{μk}空间上的分布被限制在K-1维的单纯形（simplex）当中。

概率的归一化形式为：

D i r (μ ∣ α) = Γ ( α 0 ) Γ ( α 0 ) . . . Γ ( α k ) \prod k = 1 K μ α k - 1 k

这被称为狄利克雷分布，其中 α0=∑Kk=1αk 。

0 0