信息熵

来源:互联网 发布:百分百qq综合采集软件 编辑:程序博客网 时间:2024/06/10 03:35

某事件的发生概率越小,表示这个事件的不确定性越高,这种不确定性定义为信息量( amount of information),即概率越小,事件的信息量越大。通常用公式

h(x)=log2x

表示事件x发生的信息量。

定义( entropy)为信息量的期望:

H(x)=xXp(x)lnp(x)

熵是随机变量不确定性的度量,不确定性越大,熵值越大,当随机变量均匀分布的时候熵值最大,当随机变量为定值时的熵值最小,为0.
熵的范围:0H(X)log|X|

相对熵:设p(x)q(x)是X中取值的两个概率分布,则p(x)q(x)的相对熵为:

D(p||Q)=xp(x)logp(x)q(x)=Ep(x)logp(x)q(x)

相对熵可用于度量两个随机变量的“距离”。

互信息,定义为联合分布于独立分布乘积的相对熵 :
I(X,Y)=D(p(x,y)||p(x)p(y))=x,yp(x,y)logp(x,y)p(x)p(y)

条件熵H(Y|X)=H(X,Y)H(X)=H(Y)I(X,Y)

几个概念可借助韦恩图可帮忙理解,如下:

这里写图片描述

原创粉丝点击