变分推断学习笔记(2)——一维高斯模型的例子

来源：互联网发布：ubuntu 14.04 源编辑：程序博客网时间：2024/06/05 09:33

变分推断学习笔记(2)——一维高斯模型的例子

变分推断学习笔记系列：

变分推断学习笔记(1)——概念介绍
变分推断学习笔记(2)——一维高斯模型的例子
变分推断学习笔记(3)——三硬币问题的变分推断解法

举一个一元高斯模型的例子。假设我们有数据X={x1,…,xM}，要推断平均值μ和精度τ(1/σ)的后验概率分布。写出似然

p (X | μ, τ) = (τ 2 π) N / 2 exp {- τ 2 \sum n = 1 N (x n - μ) 2} (1)

其中

μ,τμ,τ各自服从先验分布

p (μ | τ) = N (μ | μ, (λ 0 τ) - 1) (2)

p (τ) = G a m (τ | a 0, b 0) (3)

其中Gam为Gamma分布（见备注1）。

通用的估计方法

好，我们现在假设q之间的分布都独立。

q (μ, τ) = q u (μ) q r (τ) (4)

对于qu(μ)我们有

ln q * u (μ) = E r [ln p (X | μ, τ) + ln p (μ | τ)] + c o n s t = - E [ τ ] 2 {λ 0 (μ - u 0) 2 + \sum n = 1 N (x n - μ) 2} + c o n s t (5)

我们把未知数μ的项加和起来，就可以看出q∗u(μ)恰好是个高斯分布N(μ|uN,λ−1N)，其中

u N λ N = λ 0 u 0 + N x ¯ λ 0 + N = (λ 0 + N) E [τ] (6)

同样对于qr(τ)，我们有

ln q * r (τ) = E u [ln p (X | μ, τ) + ln p (μ | τ)] + ln p (τ) + c o n s t = (a 0 - 1) ln τ - b o τ + 1 2 ln τ + N 2 ln τ - τ 2 E u [\sum n = 1 N (x n - μ) 2 + λ 0 (μ - u 0) 2] + c o n s t (7)

这里

q∗r(τ)qr∗(τ)也恰好是个Gamma分布

Gam(τ|aN,bN)Gam(τ|aN,bN),其中

a N b N = a 0 + N 2 = b 0 + 1 2 E u [\sum n = 1 N (x n - μ) 2 + λ 0 (μ - u 0) 2] (8)

首先，要注意我们并未对

qu(μ)qu(μ)或

qr(τ)qr(τ)的最佳形式作出任何假设，它们就自然地形成了似然函数的形式（高斯分布）和它的先验分布形式（Gamma分布）。然后可以看到这里

qu(μ)qu(μ)与

qr(τ)qr(τ)通过

ErEr与

EuEu相互依赖。我们展开这些式子，使用高斯分布与Gamma分布的性质(见备注1）计算它们的期望:

E [τ | a N, b N] = a N b N E [μ | u N, λ - 1 N] = u N E [X 2] = V a r (X) + (E [X]) 2 E [μ 2 | u N, λ - 1 N] = λ - 1 N + u 2 N (9)

将式子（9）带入之前的式子（7）消去期望，最终得到:

u N = λ 0 u 0 + N x ¯ λ 0 + N λ N = (λ 0 + N) a N b N a N = a 0 + N + 1 2 b N = b 0 + 1 2 [(λ 0 + N) (λ - 1 N + μ 2 N) - 2 (λ 0 u 0 + \sum n = 1 N x n) u N + (\sum n = 1 N x n 2) + λ 0 u 0 2)] (10)

所以这时候循环依赖的对象变成了

λNλN和

bNbN。然后我们迭代计算这些值

利用x的值，计算aN和uN。
给λN赋一个初始值
利用λN,获得新的bN。
利用bN,获得新的λN。
反复迭代3，4步，直到收敛为止。

最后我们就得到了近似分布Q(Z)的所有超参数的值。

另一种估计方法

首先我们看到，之前这个lnp(X)（也就是似然）难求是因为Z未知，在我们这个例子里的具体表现为未知参数μ与τ之间存在耦合关系，即μ是由τ生成的(p(μ|τ)。由于原模型存在共轭先验，所以变分后验分布的因子函数形式也可以用同样的共轭结构。因为我们定义Q(Z)分布的目的是要获得tractable的分布，所以可以在原模型的分布上作小修改，只要斩断耦合的部分即可。（这部分论述可能有问题，还需要多看书才行）

所以我们假设q(μ)与q(τ)之间相互独立，即q(μ)的参数不受τ的控制。但它依旧是个高斯分布，q(τ)依旧是个Gamma分布，只是各自的参数未知。所以我们只要把下界看成这些分布的未知参数的函数形式，然后通过对各自参数的求导就能获得下界的极大值。(可能是因为指数家族的关系，未知参数的期望都有固定的函数形式，所以比较好求）

以之前为例，我们假设

q (μ) = N (μ | u N, λ - 1 N) q (τ) = G a m (τ | a N, b N) (11)

其中，

aN,bN,uN,λ−1NaN,bN,uN,λN−1均为未知参数。

写出变分下界

L = \int \int q (μ, τ) ln p ( X , μ , τ ) q ( μ , τ ) du dr = E q [ln p (X, μ, τ)] - E q [ln q (μ, τ)] = E q [ln p (X | μ, τ)] + E q [ln p (μ | τ)] + E q [ln p (τ)] - E q [ln q (μ)] - E q [ln q (τ)] (12)

其中

E q [ln p (X | μ, τ)] = N 2 E r [ln τ] - τ 2 E u [\sum n = 1 N (x n - μ) 2] E q [ln p (μ | τ)] = 1 2 E r [ln τ] - τ 2 E u [λ 0 (μ - u 0) 2] E q [ln p (τ)] = (a 0 - 1) E r [ln τ] - b o E r [τ] E q [ln q (μ)] = u N E q [ln p (τ)] = a N b N (13)

根据Gamma分布的性质，将消去式(13)中的期望，最后我们获得的式子将只包括

aN,bN,uN,λ−1NaN,bN,uN,λN−1这4个变量，分别对其求导，就可以得到每个参数的更新公式了（同式（10））。

备注： 1.Gamma分布

G a m (λ | a, b) = 1 Γ ( a ) b a λ a - 1 exp (- b λ) (14)

它的一些期望

E [λ] = a b v a r [λ] = a b 2 E [ln λ] = Ψ (a) - ln (b) (15)

其中

Ψ(a)=ddalnΓ(a)Ψ(a)=ddaln⁡Γ(a)

分享到 Comments

阅读全文

0 0