【DL笔记】相对熵与交叉熵

来源：互联网发布：windows主题桌面编辑：程序博客网时间：2024/05/30 04:18

前言

相对熵（Relative Entropy）与交叉熵（Cross Entropy）二者经常出现在深度学习的公式与算法中，本文介绍二者的计算以及之间的区别。

关于熵

熵是衡量信息量的物理量，在决策树算法中涉及到的信息熵、信息增益、信息增益率等都与此相关，详细可参见这篇文章。

相对熵

相对熵(relative entropy)又称为KL散度（Kullback-Leibler divergence），KL距离，是两个随机分布间距离的度量。记为DKL(p||q)。它度量当真实分布为p时，假设分布q的无效性。

并且为了保证连续性，做如下约定：

显然，当p=q时,两者之间的相对熵DKL(p||q)=0
上式最后的Hp(q)表示在p分布下，使用q进行编码需要的bit数，而H(p)表示对真实分布p所需要的最小编码bit数。基于此，相对熵的意义就很明确了：DKL(p||q)表示在真实分布为p的前提下，使用q分布进行编码相对于使用真实分布p进行编码（即最优编码）所多出来的bit数。

交叉熵

交叉熵容易跟相对熵搞混，二者联系紧密，但又有所区别。假设有两个分布p，q，则它们在给定样本集上的交叉熵定义如下：

可以看出，交叉熵与上一节定义的相对熵仅相差了H(p),当p已知时，可以把H(p)看做一个常数，此时交叉熵与KL距离在行为上是等价的，都反映了分布p，q的相似程度。最小化交叉熵等于最小化KL距离。它们都将在p=q时取得最小值H(p)（p=q时KL距离为0），因此有的工程文献中将最小化KL距离的方法称为Principle of Minimum Cross-Entropy (MCE)或Minxent方法。
特别的，在logistic regression中，
p:真实样本分布，服从参数为p的0-1分布，即X∼B(1,p)
q:待估计的模型，服从参数为q的0-1分布，即X∼B(1,q)
两者的交叉熵为：

这个结果与通过最大似然估计方法求出来的结果一致。

阅读全文

0 0