机器学习笔记——相对熵 交叉熵

来源:互联网 发布:商业游戏源码论坛 编辑:程序博客网 时间:2024/06/08 10:17

相对熵relative entropy

又称为KL散度(Kullback-Leibler divergence) 交互熵 互熵
 p(x).q(x)是X中取值的两个概率分布,则 p q的相对熵是:

 D(p,q)=xϵXp(x)logp(x)q(x)=Ep(x)logp(x)q(x)

相对熵可以度量两个随机变量的'距离'
一般情况下,  D(p,q)D(q,p)   <非对称的距离>
 D(p,q)0
 D(q,p)0

交叉熵cross entropy

交叉熵主要用于度量两个概率分布间的差异性信息.
交叉熵:

 CEH(p,q)=Ep[logq]=xϵXp(x)logq(x)=H(p)+DKL(p||q)

当p已知时,可以把H(p)看作一个常数,此时交叉熵与KL距离在行为上是等价的,都是反映了分布p q的相似程度.最小化交叉熵等于最小化KL距离.它们都在p=q时取得最小值.
p=q时   CEH(p,q)=H(p)  DKL(p||q)=0

互信息

两个随机变量X. Y的互信息,定义为X. Y的联合分布和独立分布乘积的相对熵:

 I(X,Y)=D(P(X,Y)||P(X)P(Y))

 I(X,Y)=x,yp(x,y)logp(x,y)p(x)p(y)