EM ALGORITHM

来源：互联网发布：崔成国知乎编辑：程序博客网时间：2024/06/04 17:43

Let x be observable data and z be latent data.

p ( x , z | θ ) p ( x | θ ) = p (z | x, θ)

Take log on both sides:

\Rightarrow log p (x, z | θ) - log p (x | θ) = log p (z | x, θ) log p (x | θ) = log p (x, z | θ) - log p (z | x, θ)

Take conditional expectation with respect to z|θ′,x on both sides:

\Rightarrow ε [log p (x | θ) | θ', x] = ε [log p (x, z | θ) | θ', x] - ε [log p (z | x, θ) | θ', x] log p (x | θ) = ε [log p (x, z | θ) | θ', x] - ε [log p (z | x, θ) | θ', x]

Choose

\Rightarrow θ (i + 1) = arg max θ ε [log p (x, z | θ) | θ (i), x] θ (i + 1) = arg max θ \sum z p (z | θ (i), x) log p (x, z | θ)

Prove that p(x|θ(i)) is increasing as i increasing, i.e., p(x|θ(i+1))≥p(x|θ(i)).

ε [log p (x, z | θ (i + 1)) | θ (i), x] \geq ε [log p (x, z | θ (i)) | θ (i), x]

ε [log p (z | x, θ (i + 1)) | θ (i), x] \leq ε [log p (z | x, θ (i + 1)) | θ (i), x]

This is true because of following.

If ε is taken with respect to p(x), we have ε[logp(x)]≥εlogp′(x), where p′(x) is any pdf (not identical as p(x)).

p.f.

\Rightarrow \Rightarrow \Rightarrow ε [log p ' ( x ) p ( x )] \leq log ε [p ' ( x ) p ( x )] (by Jensen's inequality) ε [log p' (x)] - ε [log p (x)] \leq log \int p ' ( x ) p ( x ) \cdot p (x) d x = 1 ε [log p' (x)] - ε [log p (x)] \leq 0 ε [log p' (x)] \leq ε [log p (x)]

p.s.
Jensen’s inequality:

For a convex function ϕ,

ε [ϕ (x)] \geq ϕ (ε [x])

and let ϕ=−log,

ε [log (x)] \leq log (ε [x])

0 0