KL散度(Kullback-Leibler Divergence)

来源：互联网发布：新闻资讯网站源码编辑：程序博客网时间：2024/05/17 22:06

今天开始来讲相对熵，我们知道信息熵反应了一个系统的有序化程度，一个系统越是有序，那么它的信息熵就越低，反之就越高。下面是熵的定义

如果一个随机变量的可能取值为，对应的概率为，则随机变

量的熵定义为

有了信息熵的定义，接下来开始学习相对熵。

熵是随机变量不确定性的度量，不确定性越大，熵就越大，如果是常量，就是零。不确定性度量的本质就是信息量的期望。均匀分布是最不确定的分布（在没有任何条件下，就是不知道均值和方差的情况下）。如果在均值和方差都知道的情况下，那就是高斯分布的熵最大。

1. 相对熵的认识

相对熵又称互熵，交叉熵，鉴别信息，Kullback熵，Kullback-Leible散度（即KL散度）等。设和

是取值的两个概率概率分布，则对的相对熵为

在一定程度上，熵可以度量两个随机变量的距离。KL散度是两个概率分布P和Q差别的非对称性的度量。KL散度是

用来度量使用基于Q的编码来编码来自P的样本平均所需的额外的位元数。典型情况下，P表示数据的真实分布，Q

表示数据的理论分布，模型分布，或P的近似分布。

2. 相对熵的性质

相对熵（KL散度）有两个主要的性质。如下

（1）尽管KL散度从直观上是个度量或距离函数，但它并不是一个真正的度量或者距离，因为它不具有对称性，即

（2）相对熵的值为非负值，即

在证明之前，需要认识一个重要的不等式，叫做吉布斯不等式。内容如下

3.KL实际中的应用：

因为KL散度从直观上是个度量或距离函数，但是它不具有对称性，所以在实践用左边的还是右边的就是个问题，如果实际中的已知的分布是P，就用右边的，反之就用左边的来估计，下面为了说明这个问题，就以右边的为例子，就是p的分布是已知的，来估计q。

使用KL散度，在p为零的地方，q就一定要尽可能的为零，这就会让q的分布曲线比较窄（图a），如果我们反过来用，p不是零，q也不会是零，q趋向于覆盖p（图b），这部分的图可以参考（pattern recognition and machine learning这本书，上面有两个图，比较形象）

参考：

http://blog.csdn.net/acdreamers/article/details/44657745

Pattern Recognition and Machine Learning

阅读全文

2 0