KL距离

来源:互联网 发布:freebsd python 编辑:程序博客网 时间:2024/05/17 08:43

定义 : 两个概率质量函数为p(x)q(x)之间的相对熵或KL距离定义为 :


D(p||q)=xχp(x)logp(x)q(x)

理解
如果随机变量的真实分布为p,可以构造平均长度为H(p)的码,但是如果使用针对分布q的编码,那么平均意义上就需要xχp(x)log1q(x),记作H(p||q)比特来描述这个随机变量。那么可以这样定义D(p||h)

D(p||q)=H(p||q)H(p)=xχp(x)log1q(x)p(x)log1p(x)=xχp(x)logp(x)q(x)

总结就是,使用由q构造的编码将会在平均意义上比最优编码(由真实分布p构造的编码)长D(p||q)比特。

其他统计距离
至于general的统计距离,当然,它们其实没有本质差别。更广泛的来看,KL divergence可以看成是phi-divergence的一种特殊情况(phi取log)。注意下面的定义是针对discrete probability distribution,但是把sum换成integral很自然可以定义连续版本的。


这里写图片描述

用其它的divergence理论来做上是没有本质区别的,只要phi是convex, closed的。


这里写图片描述

因为它们都有相似的概率意义,比如说pinsker’s theorem保证了KL-divergence是total variation metric的一个tight bound. 其它divergence metric应该也有类似的bound,最多就是order和常数会差一些。而且,用这些divergence定义的minimization问题也都会是convex的,但是具体的computation performance可能会有差别,所以KL还是用的多。

作者:覃含章
链接:https://www.zhihu.com/question/29980971/answer/103807952
来源:知乎
著作权归作者所有,转载请联系作者获得授权。

参考资料
- https://www.zybuluo.com/a335031/note/43211

0 0
原创粉丝点击