多变量高斯分布之间的KL散度（KL Divergence）

来源：互联网发布：人人字幕组知乎编辑：程序博客网时间：2024/06/09 13:40

单变量高斯分布的概率密度函数如下（均值：u，方差：σ）：

N (x | u, σ) = 1 ( 2 π σ 2 ) 1 / 2 exp {- 1 2 σ 2 (x - u) 2}

多变量高斯分布（假设n维）的概率密度函数如下（均值：u，协方差矩阵：

Σ）：

N (x | u, Σ) = 1 ( 2 π ) n / 2 | Σ | 1 / 2 exp {- 1 2 (x - u) T Σ - 1 (x - u)}

在公式推导之前，首先介绍一些用到的性质。

矩阵的迹的性质：
（1）tr(αA+βB)=αtr(A)+βtr(B)
（2）tr(A)=tr(AT)
（3）tr(AB)=tr(BA)
根据性质（3）可以得到性质（4）
（4）tr(ABC)=tr(CAB)=tr(BCA)
在推导公式过程中，使用到的一个重要的trick如下：
对于列向量λ，公式λTAλ的结果是一个标量，所以：

$λ T A λ = t r (λ T A λ) = t r (A λ λ T)$
多变量分布中期望E与协方差Σ的性质：
（1）E[xxT]=Σ+uuT
证明：
$Σ = E [(x - u) (x - u) T] = E [x x T - x u T - u x T + u u T] = E [x x T] - u u T - u u T + u u T = E [x x T] - u u T$
（2）E(xTAx)=tr(AΣ)+uTAu
证明：
因为xTAx的结果是一个标量，利用前面提到的trick，可得：
$E (x T A x) = E [t r (x T A x)] = E [t r (A x x T)] = t r [E (A x x T)] = t r [A E (x x T)] = t r [A (Σ + u u T)] = t r (A Σ) + t r (A u u T) = t r (A Σ) + t r (u T A u) = t r (A Σ) + u T A u$

这里主要讲述多变量高斯分布的KL散度。
连个分布和的的KL散度定义如下:

D K L (P 1 | | P 2) = E P 1 [log P 1 P 2]

D K L (P 1 | | P 2) = E P 1 [log P 1 - log P 2] = 1 2 E P 1 [- log | Σ 1 | - (x - u 1) T Σ - 1 1 (x - u 1) + log | Σ 2 | + (x - u 2) T Σ - 1 2 (x - u 2)] = 1 2 log | Σ 2 | | Σ 1 | + 1 2 E P 1 [- (x - u 1) T Σ - 1 1 (x - u 1) + (x - u 2) T Σ - 1 2 (x - u 2)] = 1 2 log | Σ 2 | | Σ 1 | + 1 2 E P 1 {- t r [Σ - 1 1 (x - u 1) (x - u 1) T] + t r [Σ - 1 2 (x - u 2) (x - u 2) T]} = 1 2 log | Σ 2 | | Σ 1 | + 1 2 E P 1 {- t r [Σ - 1 1 (x - u 1) (x - u 1) T]} + 1 2 E P 1 {t r [Σ - 1 2 (x - u 2) (x - u 2) T]} = 1 2 log | Σ 2 | | Σ 1 | - 1 2 t r {E P 1 [Σ - 1 1 (x - u 1) (x - u 1) T]} + 1 2 t r {E P 1 [Σ - 1 2 (x - u 2) (x - u 2) T]} = 1 2 log | Σ 2 | | Σ 1 | - 1 2 t r {Σ - 1 1 E P 1 [(x - u 1) (x - u 1) T]} + 1 2 t r {E P 1 [Σ - 1 2 (x x T - u 2 x T - x u T 2 + u 2 u T 2)]} = 1 2 log | Σ 2 | | Σ 1 | - 1 2 t r {Σ - 1 1 Σ 1} + 1 2 t r {Σ - 1 2 E P 1 (x x T - u 2 x T - x u T 2 + u 2 u T 2)} = 1 2 log | Σ 2 | | Σ 1 | - 1 2 n + 1 2 t r {Σ - 1 2 (Σ 1 + u 1 u T 1 - u 2 u T 1 - u 1 u T 2 + u 2 u T 2)} - - - 这 里 利 用 了 E [x x T] = Σ + u u T = 1 2 {log | Σ 2 | | Σ 1 | - n + t r (Σ - 1 2 Σ 1) + t r {Σ - 1 2 (u 1 u T 1 - u 2 u T 1 - u 1 u T 2 + u 2 u T 2)}} = 1 2 {log | Σ 2 | | Σ 1 | - n + t r (Σ - 1 2 Σ 1) + t r {Σ - 1 2 u 1 u T 1 - Σ - 1 2 u 2 u T 1 - Σ - 1 2 u 1 u T 2 + Σ - 1 2 u 2 u T 2}} = 1 2 {log | Σ 2 | | Σ 1 | - n + t r (Σ - 1 2 Σ 1) + t r {u T 1 Σ - 1 2 u 1 - 2 u T 1 Σ - 1 2 u 2 + u T 2 Σ - 1 2 u 2}} = 1 2 {log | Σ 2 | | Σ 1 | - n + t r (Σ - 1 2 Σ 1) + (u 2 - u 1) T Σ - 1 2 (u 2 - u 1)}

阅读全文

0 0