Maximum-Likelihood Expectation-Maximization (ML-EM)

来源：互联网发布：软件的数据采集编辑：程序博客网时间：2024/05/19 22:57

I. Notations

X={x1,x2,...,xN} i.i.d. observed variables

Z={z1,z2,...,zN} latent variables

Θ(t) The estimate of the parameters at iteration t

l(Θ) The marginal log-likelihood logp(X|Θ)

II. Derivations

1. Maximum-Likelihood:

Θ ̂ = arg max Θ log p (X | Θ) = arg max Θ \sum i N log p (x i | Θ) = arg max Θ \sum i N log \sum k K P (x i, z = k | Θ)

which is hard to compute with a gradient method.

l (Θ) = log p (X | Θ) = \sum i N log \sum k K P (x i, z = k | Θ) = \sum i N log \sum k K q (z = k | x i, Θ) P ( x i , z = k | Θ ) q ( z = k | x i , Θ )

\geq \sum i N \sum k K q (z = k | x i, Θ) log P ( x i , z = k | Θ ) q ( z = k | x i , Θ ) \equiv Q (q, Θ)

where

q(z | x,Θ) is an arbitrary density over

Z, and the inequality is given by Jessen’s inequality, i.e,

Ef(x)≤f(E(x)) for convex function and

Ef(x)≥f(E(x)) for concave function. Here

f(x)=log(x) is a concave function.

2. Expectation-Maximization:

Thus we have the lower bound of target function l(Θ). Instead of maximizing l(Θ) directly, EM maximizes the lower-bound Q(q,Θ) via coordinate ascent:

E - s t e p : q (t + 1) = arg max q Q (q, Θ t)

M - s t e p : Θ (t + 1) = arg max Θ Q (q (t + 1), Θ)

E-Step: compute q(t+1)=argmaxqQ(q,Θt) with constraint ∑Kkq(z=k | x,Θ)=1 (arbitrary density function over Z), by introducing the lagrange multiplier λ, we define

G (q) = λ (1 - \sum k K q (z = k | x, Θ)) + \sum k K q (z = k | x, Θ) log P (x, z = k | Θ) - \sum k K q (z = k | x, Θ) log q (z = k | x, Θ)

\partial G ( q ) \partial q = - λ + log P (x, z = k | Θ) - log q (z = k | x, Θ) - 1 = 0

q (z = k | x, Θ) \propto P (x, z = k | Θ) = P ( x , z = k | Θ ) \sum K k ' P ( x , z = k ' | Θ ) = P (z = k | x, Θ)

thus, q=P(z|x,Θ) give the closest lower bound of l(Θ)

M-Step: update parameters θ, with

Θ (t + 1) = arg max Θ \sum i N \sum k K P (z = k | x i, Θ (t)) log P ( x i , z = k | Θ ) P ( z = k | x i , Θ ( t ) )

= arg max Θ \sum i N \sum k K P (z = k | x i, Θ (t)) log P (x i, z = k | Θ)

III. Applications to Gaussian Mixture Models(GMMs)

For general mixture models, we have

P (x | Θ) = \sum k K P (x, z = k | Θ) = \sum k K P (z = k | Θ) P (x | z = k, Θ)

For Gaussian Mixture Models (GMMs), we have

P (x | Θ) = \sum k K π k  (x | μ k, Σ k) w i t h \sum k K π k = 1

E-Step for GMMs:

Define qi,k≡P(z=k|xi,Θ), then

q i, k = P ( z = k , x i , | Θ ) \sum K k ' P ( z = k ' , x i , | Θ ) = π k  ( x i | μ k , Σ k ) \sum K k ' π k '  ( x i | μ k ' , Σ k ' )

M-Step for GMMs:
update the parameters which maximizes the Log-likelihood below

Θ (t + 1) = arg max Θ \sum i N \sum k K q i, k log P (x i, z = k | Θ) = arg max Θ \sum i N \sum k K q i, k log (π k  (x i | μ k, Σ k))

with subject to

∑Kkπk=1, introducing the lanrange multiplier into the objective function, we thus have

G (Θ, λ) = λ (1 - \sum k K π k) + \sum i N \sum k K q i, k log π k + \sum i N \sum k K q i, k log  (x i | μ k, Σ k)

\partial G ( Θ , λ ) \partial π k = 0 a n d \sum k K π k = 1 ⟹ π k = \sum N i q i , k \sum K k \sum N i q i , k = \sum N i q i , k N

\partial G ( Θ , λ ) \partial μ k = 0 ⟹ μ k = \sum N i q i , k x i \sum N i q i , k

\partial G ( Θ , λ ) \partial Σ k = 0 ⟹ Σ k = \sum N i q i , k ( x i - μ k ) ( x i - μ k ) T \sum N i q i , k

0 0