KL距离

来源：互联网发布：freebsd python 编辑：程序博客网时间：2024/05/17 08:43

定义：两个概率质量函数为p(x)和q(x)之间的相对熵或KL距离定义为 :

D (p | | q) = \sum x \in χ p (x) log p ( x ) q ( x )

理解
如果随机变量的真实分布为p，可以构造平均长度为H(p)的码，但是如果使用针对分布q的编码，那么平均意义上就需要∑x∈χp(x)log1q(x)，记作H(p||q)比特来描述这个随机变量。那么可以这样定义D(p||h)

D (p | | q) = H (p | | q) - H (p) = \sum x \in χ p (x) log 1 q ( x ) - \sum p (x) log 1 p ( x ) = \sum x \in χ p (x) log p ( x ) q ( x )

总结就是，使用由q构造的编码将会在平均意义上比最优编码（由真实分布p构造的编码）长D(p||q)比特。

其他统计距离
至于general的统计距离，当然，它们其实没有本质差别。更广泛的来看，KL divergence可以看成是phi-divergence的一种特殊情况（phi取log）。注意下面的定义是针对discrete probability distribution,但是把sum换成integral很自然可以定义连续版本的。

用其它的divergence理论来做上是没有本质区别的，只要phi是convex, closed的。

因为它们都有相似的概率意义，比如说pinsker’s theorem保证了KL-divergence是total variation metric的一个tight bound. 其它divergence metric应该也有类似的bound，最多就是order和常数会差一些。而且，用这些divergence定义的minimization问题也都会是convex的，但是具体的computation performance可能会有差别，所以KL还是用的多。

作者：覃含章
链接：https://www.zhihu.com/question/29980971/answer/103807952
来源：知乎
著作权归作者所有，转载请联系作者获得授权。

参考资料
- https://www.zybuluo.com/a335031/note/43211

0 0