熵简介

来源:互联网 发布:软件学校 编辑:程序博客网 时间:2024/06/10 21:14

如果X为一个离散变量,则可以根据以下式子计算熵

H(X)=xRp(x)log2p(x)

其中约定0log0=0,该公式定义的熵的单位为二进制位(bit)。该公式可以理解为描述一个随机变量的不确定性。熵越大,不确定性越大。

联合熵&条件熵

如果X,Y是一对离散型随机变量X,Yp(x,y),则X,Y的联合熵H(X,Y)定义为

H(X,Y)=xXyYp(x,y)logp(x,y)

实际上描述的是表达一对随机变量平均所需要的信息量。
在给定X的情况下,随机变量Y的条件熵定义为
H(Y|X)=xXp(x)H(Y|X)=xXp(x)yYp(y|x)logp(y|x)=xXyYp(y,x)logp(y|x)

H(X,Y)展开,可得
H(X,Y)=xXyYp(x,y)log[p(y|x)p(x)]=xXyYp(x,y)[logp(y|x)+logp(x)]=xXyYp(x,y)logp(y|x)xXyYp(x,y)logp(x)=H(Y|X)+H(X)

由此可得熵的链式规则,
H(X1,X2,...,Xn)=H(X1)+H(X2|X1)+...+H(Xn|X1,...,Xn1)

互信息

I(X,Y)=H(Y)H(Y|X)

反映的是得到X的信息之后,Y的不确定性减少的程度。

相对熵

相对熵也被称为Kullback-Leibler距离,即KL距离,衡量的是相同事件空间中的两个概率分布的差异的测度。其定义为

D(p(x)||q(x))=xXp(x)logp(x)q(x),D(p(x)||q(x))=Ep(logp(x)q(x))

可知当两个随机分布完全相同时,其相对熵为0,当差别增加时,其相对熵也增加。
通过KL距离的表示,互信息也可以表示为联合分布与独立性的差距,即
I(X,Y)=D(p(x,y)||p(x)p(y))

交叉熵

交叉熵是用来衡量估计模型与真实概率之间的差距。
如果一个随机变量Xp(x)q(x)用于近似p(x)的分布,那么变量X与模型q之间的交叉熵表示为

H(X,q)=H(X)+D(p||q)=xp(x)logq(x)=EP(log1q(x))

知识共享许可协议
本作品采用知识共享署名-相同方式共享 4.0 国际许可协议进行许可

0 0
原创粉丝点击