差分熵与Kullback–Leibler散度

来源:互联网 发布:linux 查看raid 级别 编辑:程序博客网 时间:2024/06/03 20:04

一、差分熵(Differential Entropy)


我们已经在另外一篇文章(http://blog.csdn.net/baimafujinji/article/details/6469645)里介绍过香农熵的概念。一个非常重要的前提是,我们所讨论的香农熵是对离散型随机变量X而言的。现在我们要把这一概念推广到连续型随机变量的情况,此时便会得到一个非常重要的概念——差分熵。


where S is the support set of the random variable. The set where f(x) > 0 is called the support set of X.


例如对于均匀分布 U~(0, a) 而言可知


特别地,for a < 1, log a < 0, differential entropy can be negative! (unlike the discrete world).


再比如对于高斯分布而言,可知


跟进一步地,我们还可以推出高斯分布具有最大差分熵这一结论(注意下列证明用到了詹森不等式)。


差分熵与香农熵有很多不一样的地方,这主要体现在


下面我们主要来证明Bad news中的第三条:h(X) is variant under change of variables.  Depending on your coordinate system, a distribution might have a different continuous entropy.  Informally, this means that the same underlying distribution, represented with different variables, might not have the same continuous entropy.



二、差分熵与香农熵之间的关系


离散化一个连续的PDF p(x),如下图所示把区间切分成很多小的长度为∆x的小区间。


根据拉格朗日中值定理,则有


f(x) 即下面的 p(x), 而且我们都是在黎曼可积的条件下进行讨论,于是可知


其中log(∆x) 是一个constant,所以可以提到求和符号的外面,而且我们还知道


所以得到最终之结论,即 当∆x 0时,H(X) + log(∆x) = h(X)


这也就是前面Good news中的第三条之由来。


三、Kullback–Leibler divergence


相对熵(Relative entropy)又称为KL散度(Kullback–Leibler divergence)。KL散度是两个概率分布P和Q差别的非对称性的度量。 KL散度是用来度量使用基于Q的编码来编码来自P的样本平均所需的额外的位元数。 典型情况下,P表示数据的真实分布,Q表示数据的理论分布,模型分布,或P的近似分布。


一个非常好的性质是,无论离散情况还是连续情况,KL散度都适用,对于离散情况则有,其中P和Q是PMF:


KL散度具有如下性质:

  • D(X||X)=0
  • D(X||Y)≥0

其中性质1是显而易见的。性质2可以由吉布斯不等式(或称香农辅助定理)来证明。


最后我们需要说明,D(X||Y)并不一定等于D(Y||X),所以KL散度是一种差异性的度量,但它并不是确切意义上的距离,因为它并不满足对称性,所以我们用的词是divergence


(全文完)


参考文献:

[1] http://web.ntpu.edu.tw/~phwang/teaching/2012s/IT/slides/chap08.pdf

[2] http://www2.isye.gatech.edu/~yxie77/ece587/Lecture17.pdf

[3] https://fenix.tecnico.ulisboa.pt/downloadFile/1126518382174646/Differential_Entropy_by_Cover_and_Thomas.pdf

[4] http://www1.ece.uic.edu/~devroye/courses/ECE534/lectures/ch8.pdf

[5] http://www.crmarsh.com/static/pdf/Charles_Marsh_Continuous_Entropy.pdf


原创粉丝点击