信息量与熵笔记

来源:互联网 发布:最好的猫粮 知乎 编辑:程序博客网 时间:2024/06/05 15:27

主要是学习七月算法熵与信息量所作的一些笔记,当然也参考了一些博客,这里对他们表示衷心的感谢!


自信息

如果说概率p是对确定性的度量,那么信息就是对不确定性的度量
I(x) = -log(p(x))
如果两个事件XY独立,即p(xy)=p(x)p(y),假定X和Y的信息量分别为I(x)和I(y),则二者同时发生的信息量应该为
I(x^y)=I(x)+I(y)

信息熵:自信息的期望

熵是对平均不确定性的度量,熵是随机变量不确定性的度量,不确定性越大,熵值越大;若随机变量退化成定值,熵为0。该不确定性度量的本质即为信息量的期望。其中均匀分布是“最不确定”的分布。
信息熵的公式:
同时信息熵也反应了一个系统的有序化程度,一个系统越是有序,那么它的信息熵就越低,反之越高。

联合熵

两个随机变量XY的联合分布,可以形成联合熵Joint Entropy,用H(X,Y)表示。
条件

条件熵的计算公式:
H(X,Y) – H(Y)
(X,Y)发生所包含的熵,减去Y单独发生包含的熵:在Y发生的前提下,X发生带来的熵。该式子定义为Y发生前提下,X的熵:H(X|Y)。
条件熵公式的推导:

KL(Kulback-Leible)散度:

kL散度也称互熵,相对熵,鉴别信息。KL散度是衡量两个分布的距离。
设P(x)和q(X)是X取值的两个概率分布,则P对q的KL散度为:
KL散度的性质
(1)尽管KL散度从直观上是个度量或距离函数,但它并不是一个真正的度量或者距离,因为它不具有对称性,即
(2)相对熵的值为非负值,即
在证明之前,需要认识一个重要的不等式,叫做吉布斯不等式。内容如下
互信息(信息增益)
定义:i(y,x)=i(y)-i(y|x)=log(p(y|x)/p(y))
在信号与系统中,互信息表示为收信者收到信息x后,对信源发Y的不确定性的消除,实际上我们更关心不确定性的减少。
互信息的另外一种表示:
信息的对称性:
平均互信息:
决策树中的信息增益其实就是平均互信息I(X,Y)
条件熵与平均互信息的关系:
以上是公式对二者关系的表示,下面的图则更形象和直观。


上面的图中可以清楚的看出互信息I(X,Y)的不同表示方法。

各个熵之间的关系:
参考文献:
http://blog.csdn.net/haolexiao/article/details/70142571
http://blog.csdn.net/acdreamers/article/details/44657745
阅读全文
0 0
原创粉丝点击