信息熵基础

来源:互联网 发布:数据共享管理办法 编辑:程序博客网 时间:2024/06/03 10:12

  • 信息熵
      • 1 熵的定义
      • 2 熵的极大值定理证明
      • 3 凸函数性质
    • 联合熵与条件熵
      • 1 联合熵
      • 2 条件熵
      • 3 联合熵和条件熵的辨析
    • 相对熵与互信息
      • 1 相对熵
      • 2 互信息
      • 3 自信息

信息熵

1. 熵

1.1 熵的定义

定义一个用来描述事件的不确定程度的量,即信息量,假设某一事件x发生的概率是p(x),信息量为I(x)

  1. p(x)=0的时候,I(x)=+;
  2. p(x)=1的时候,I(x)=0
  3. p(x)<p(y)的时候,I(x)>I(y)
  4. I(x)>=0
  5. 当事件相互独立的时候,联合概率密度p(x,y)=p(x)p(y),信息量为I(x,y)=I(x)+I(y).即独立事件同时发生的的信息量等于单个事件信息量之和

I(x)=clog(p(x))

满足上面的性质,c是常数,对数的底数任意,于是就将I(x)=log(p(x)),称作信息量。信息量的表达形式是人为设定的,用来满足一些对于信息量抽象概念的性质

是用来描述一个系统的平均信息量的,即一个系统的平均不确定程度,假设某一系统(随机变量)由很多事件(观测值)(x0,x1,....,xn1)构成,事件的概率分布为(p(x0),p(x1),...,p(xn1)),定义:

信息熵

H(x)=i=0n1p(xi)I(xi)=i=0n1p(xi)log(p(xi))

1.2 熵的极大值定理证明:

一个随机变量的熵值在各个取值的概率都相等的时候取得最大(每个系统的熵是相对的,只有同一系统才能比较熵值的大小,不同的系统不能比较)

简化写为

H=ipilog(pi)pj=1ipi,ijHpi=[1+log(pi)1log(pj)]=log(pi1piki,jkpk)      (1)2Hp2i=1pi11piki,jkpk<0     (2)

(1)式是熵的一阶导数,(2)式是熵的二阶导,由于:

a . 二阶导小于零

b . pi=0的时候一阶导+pi=1的时候一阶导

得出则熵的函数是一个上凸的函数,函数的极值点就是最大值点。

对于每一个ij 都有式子pi1piki,jkpk=1,则有所有pi(ij)相等,记为p,则有

p1(n1)p=1p=1n

即当且仅当随机变量所有的事件的概率相等时,随机变量的熵值取得最大值。

1.3 凸函数性质

注意:这里的凸函数是指的下凸,上凸称作凹

凸函数f(x)有两个性质

  1. 二阶导大于零
  2. 对所有0<=λ<=1x1x2,有f(λx1+(1λ)x2)<=λf(x1)+(1λ)f(x2)

Jensen不等式:

对于一个下凸的函数f和一个随机变量X,有

Ef(X)>=f(EX)

证明:

考虑离散情况,使用数学归纳法:

当只有二项分布的时候,由凸函数的性质,有p1f(x1)+p2f(x2)>=f(p1x1+p2x2),显然成立。

假设有n-1个分布点的时候,不等式成立,即已知

i=1n1pif(xi)>=f(i=1k1pixi)

对于n个分布点:
i=1npif(xi)=pnf(xn)+i=1n1pif(xi)=pnf(xn)+(1pn)i=1n1pi1pnf(xi)>=pnf(xn)+(1pn)f(i=1n1pi1pnxi)>=f(pnxn+(1pn)i=1n1pi1pnxi)=f(i=1npixi)

即得证。

形象地:
这里写图片描述

红点是随机分布的分布点,绿点是f(Ex),黄点所在的纵坐标是E(f(x)),显然有f(E(x))<=E(f(x))

2. 联合熵与条件熵

2.1 联合熵

对于二元的概率,联合熵为

H(X,Y)=p(x,y)log(p(x,y))=E(I(x,y))

2.2 条件熵

当X取某一观测值,条件概率为p(Y|X=x),此时对于随机变量Y来说,在X=x的条件下熵是:

H(Y|X=x)=p(y|x)log(p(y|x))

条件熵就定义为当X取遍所有观测值时,随机变量Y的熵的期望
H(Y|X)=p(x)H(Y|X=x)=xp(x)yp(y|x)log(p(y|x))=xyp(x,y)log(p(y|x))

链式法则:
H(X,Y)=xyp(x,y)log(p(x,y))=xyp(x,y)log(p(y|x)p(x))=xyp(x,y)log(p(y|x))xyp(x,y)log(p(x))=H(Y|X)xyp(x,y)log(p(x))=H(Y|X)xp(x)log(x)=H(Y|X)+H(X)

也可以由
log(p(x,y))=log(p(y|x))log(x)

两边同时取期望得到

2.3 联合熵和条件熵的辨析

​ 条件熵是在确定某一条件的情况下,系统的平均不确定度。此时如果加上自身的不确定度,则等于系统的整体不确定度。即条件确定,条件下的状态确定,则系统确定。

3. 相对熵与互信息

3.1 相对熵

假设有一个随机变量X,对于他所有的取值x,都对应着两个分布p和q,即

Xpqx0p0q0x1p1q1.........xn1pn1qn1

假设相对熵描述对于相同取值的随机变量的不同分布之间的距离
D(p||q)=ipilog(piqi)

辨析:

a. 距离是相对的而且是不对称的,D(p||q)D(q||p),在度量的时候要么在D(p||q)的框架下,要么反之,不能混用。

b.D(p||q)>=0,当且仅当所有pi=qi的时候取等号。

证明:

D(p||q)=ipilog(piqi)=ipilog(qipi)<=log(ipiqipi)=log(sumipi)=log(1)=0

D(p||q)>=0,只有当所有pi=cqi,的时候取等号,又ipi=iqi=1,有ipi=ciqi=iqi,得c=1 。即只有当所有pi=qi的时候,才能取等号。

c.约定0log00=0,0log(0q)=0,plog(p0)=

3.2 互信息

互信息用来描述两个随机变量之间的相关性,定义为联合概率密度和概率密度之积 的相对熵。

I(X;Y)=xyp(x,y)log(p(x,y)p(x)p(y))=D(p(x,y)||p(x)p(y))

辨析:

a. 当I(X;Y)值比较大的时候,表明相关性很强,因为p(x)p(y)表示如果两个随机变量独立分布的时候的概率密度。反之,如果I(X;Y)的值很小甚至接近于0,表明X和Y的相关性很弱,因为联合概率密度接近于独立分布的概率密度。

b.互信息是对称的,I(X;Y)=I(Y;X),只是分母分子不能反。

c.互信息的链式规则:

I(X;Y)=xyp(x,y)log(p(x,y)p(x)p(y))=x,yp(x,y)log(p(x|y)p(x))=xp(x)log(p(x))(x,yp(x,y)log(p(x|y)))=H(X)H(X|Y)=H(Y)H(Y|X)

互信息也可以解释为给定Y的情况下X的不确定程度的减少量,如果给定Y,X的熵并没有变少,则X和Y相对独立,减少量就少。反之,给定Y后熵的减少量多,则X和Y之间存在很强的相关性。

3.3 自信息

现有的链式法则有:

H(X,Y)=H(X)+H(Y|X)=H(Y)+H(X|Y)I(X;Y)=H(X)H(X|Y)=H(Y)H(Y|X)


I(X;Y)=H(X)+H(Y)H(X,Y)

自信息
I(X;X)=H(X)+H(X)H(X,X)=H(X)

这里写图片描述

原创粉丝点击