信息量与熵笔记

来源：互联网发布：最好的猫粮知乎编辑：程序博客网时间：2024/06/05 15:27

主要是学习七月算法熵与信息量所作的一些笔记，当然也参考了一些博客，这里对他们表示衷心的感谢！

自信息

如果说概率p是对确定性的度量，那么信息就是对不确定性的度量。

I(x) = -log(p(x))
如果两个事件X和Y独立，即p(xy)=p(x)p(y)，假定X和Y的信息量分别为I(x)和I(y)，则二者同时发生的信息量应该为

I(x^y)=I(x)+I(y)

信息熵：自信息的期望

熵是对平均不确定性的度量，熵是随机变量不确定性的度量，不确定性越大，熵值越大；若随机变量退化成定值，熵为0。该不确定性度量的本质即为信息量的期望。其中均匀分布是“最不确定”的分布。

信息熵的公式：

同时信息熵也反应了一个系统的有序化程度，一个系统越是有序，那么它的信息熵就越低，反之越高。

联合熵

两个随机变量X，Y的联合分布，可以形成联合熵Joint Entropy，用H(X,Y)表示。

条件熵

条件熵的计算公式：

H(X,Y) – H(Y)

(X,Y)发生所包含的熵，减去Y单独发生包含的熵：在Y发生的前提下，X发生“新”带来的熵。该式子定义为Y发生前提下，X的熵：H(X|Y)。

条件熵公式的推导：

KL(Kulback-Leible)散度：

kL散度也称互熵，相对熵，鉴别信息。KL散度是衡量两个分布的距离。

设P(x)和q(X)是X取值的两个概率分布，则P对q的KL散度为：

KL散度的性质：

（1）尽管KL散度从直观上是个度量或距离函数，但它并不是一个真正的度量或者距离，因为它不具有对称性，即

（2）相对熵的值为非负值，即

在证明之前，需要认识一个重要的不等式，叫做吉布斯不等式。内容如下

互信息（信息增益）

定义：i(y,x)=i(y)-i(y|x)=log(p(y|x)/p(y))

在信号与系统中，互信息表示为收信者收到信息x后，对信源发Y的不确定性的消除，实际上我们更关心不确定性的减少。

互信息的另外一种表示：

互信息的对称性：

平均互信息：

决策树中的“信息增益”其实就是平均互信息I(X,Y)。

条件熵与平均互信息的关系：

以上是公式对二者关系的表示，下面的图则更形象和直观。

从上面的图中可以清楚的看出互信息I(X,Y)的不同表示方法。

各个熵之间的关系：

参考文献：

http://blog.csdn.net/haolexiao/article/details/70142571

http://blog.csdn.net/acdreamers/article/details/44657745

阅读全文

0 0