为什么KL-divergence 可以用来衡量两个概率分布的不相似性？

来源：互联网发布：手机淘宝6.0版编辑：程序博客网时间：2024/05/18 21:42

以下所有内容均来自 PRML 一书，读者读了之后，有任何没有看懂的，请留言。我是传播知识的小蜜蜂

如果有个未知的分布为p(x)，我们使用q(x)估计它。从信息传输的角度理解，如果使用它们刻画信息编码的方法。那么使用q(x)估计p(x)时，平均额外需要多编码的信息长度为：

K L (p ∥ q) = - \int p (x) ln q (x) d x - (- \int p (x) ln p (x) d x) = - \int p (x) ln q ( x ) p ( x ) d x

。如果要想使得两个分布

p(x)和

q(x)尽可能的相同，则

KL(p∥q)应尽可能地最小。
令

f(x)=−lnq(x)p(x)。显然，

f(x) 是个凸函数。由凸函数的定义和Jensen不等式可知：

\int p (x) f (x) d x \geq f (\int x p (x) d x)

，因此：

K L (p ∥ q) \geq - ln \int (q ( x ) p ( x ) p (x)) d x = - ln \int q (x) d x = 0

. 事实上，

−ln(x)是强凸函数，因此等号并不成立。即：

K L (p ∥ q) > - ln \int (q ( x ) p ( x ) p (x)) d x = - ln \int q (x) d x = 0

。根据

KL(p∥q)的定义，只用当

p(x)==q(x)时等号成立。因此，

KL(p∥q)可以用来衡量两个分布的差异。它的值越大说明两个分布的差异越大。

0 0