熵、交叉熵和相对熵的区别与联系

来源:互联网 发布:linux安装mysql报错 编辑:程序博客网 时间:2024/06/05 06:28

一、的本质是香农信息量(log\frac{1}{p} )的期望。

现有关于样本集的2个概率分布p和q,其中p为真实分布,q非真实分布。按照真实分布p来衡量识别一个样本的所需要的编码长度的期望(即平均编码长度)为:H(p)=\sum_{i}^{} p(i)*log\frac{1}{p(i)} 。如果使用错误分布q来表示来自真实分布p的平均编码长度,则应该是:H(p,q)=\sum_{i}^{} p(i)*log\frac{1}{q(i)} 。因为用q来编码的样本来自分布p,所以期望H(p,q)中概率是p(i)。H(p,q)我们称之为“交叉熵”

比如含有4个字母(A,B,C,D)的数据集中,真实分布p=(1/2, 1/2, 0, 0),即A和B出现的概率均为1/2,C和D出现的概率都为0。计算H(p)为1,即只需要1位编码即可识别A和B。如果使用分布Q=(1/4, 1/4, 1/4, 1/4)来编码则得到H(p,q)=2,即需要2位编码来识别A和B(当然还有C和D,尽管C和D并不会出现,因为真实分布p中C和D出现的概率为0,这里就钦定概率为0的事件不会发生啦)。

可以看到上例中根据非真实分布q得到的平均编码长度H(p,q)大于根据真实分布p得到的平均编码长度H(p)。事实上,根据Gibbs' inequality可知,H(p,q)>=H(p)恒成立,当q为真实分布p时取等号。我们将由q得到的平均编码长度比由p得到的平均编码长度多出的bit数称为“相对熵”:D(p||q)=H(p,q)-H(p)=\sum_{i}^{} p(i)*log\frac{p(i)}{q(i)} ,其又被称为KL散度(Kullback–Leibler divergence,KLD) Kullback–Leibler divergence。它表示2个函数或概率分布的差异性:差异越大则相对熵越大,差异越小则相对熵越小,特别地,若2者相同则熵为0。注意,KL散度的非对称性。

比如TD-IDF算法就可以理解为相对熵的应用:词频在整个语料库的分布与词频在具体文档中分布之间的差异性。

交叉熵可在神经网络(机器学习)中作为损失函数,p表示真实标记的分布,q则为训练后的模型的预测标记分布,交叉熵损失函数可以衡量p与q的相似性。交叉熵作为损失函数还有一个好处是使用sigmoid函数在梯度下降时能避免均方误差损失函数学习速率降低的问题,因为学习速率可以被输出的误差所控制。

PS:通常“相对熵”也可称为“交叉熵”,因为真实分布p是固定的,D(p||q)由H(p,q)决定。当然也有特殊情况,彼时2者须区别对待。
个人理解为,熵可以定性描述为信息量的期望,也可以定量描述为所需编码长度的期望。
二、其他理解

先给结论:
1)信息熵:编码方案完美时,最短平均编码长度的是多少。
2)交叉熵:编码方案不一定完美时(由于对概率分布的估计不一定正确),平均编码长度的是多少。
平均编码长度 = 最短平均编码长度 + 一个增量
3)相对熵:编码方案不一定完美时,平均编码长度相对于最小值的增加值。(即上面那个增量)
-------------------------------------------------------------------------------------------------

零、信息熵
1、熵的本质是香农信息量 log(1/p) 的期望;(参考了第一个答案)
H(p) = E[ log(1/p) ] = ∑ p_i * log(1/p_i),是一个期望的计算,也是记录随机事件结果的平均编码长度;
为什么信息量 是 log(1/p) 呢?
因为:一个事件结果的出现概率越低,对其编码的bit长度就越长。
以期在整个随机事件的无数次重复试验中,用最少的 bit 去记录整个实验历史。
即无法压缩的表达,代表了真正的信息量。

2、熵的本质的另一种解释:最短平均编码长度
【本质含义:编码方案完美时,最短平均编码长度的是多少】

3、交叉熵,则可以这样理解:使用了“估算”的编码后,得到的平均编码长度(可能不是最短的)
p是真实概率分布,q是你以为的概率分布(可能不一致);
你以 q 去编码,编码方案 log(1/q_i)可能不是最优的;
于是,平均编码长度 = ∑ p_i *log(1/q_i),就是交叉熵;
只有在估算的分布 q 完全正确时,平均编码长度才是最短的,交叉熵 = 熵

【本质含义:编码方案不一定完美时,平均编码长度的是多少】

1)交叉熵在 ML 中等效于相对熵

【作用:用来评估,当前训练得到的概率分布,与真实分布有多么大的差异】

因为与相对熵只差一个 分布 P 的信息熵,若 P 是固定的分布,与训练无关;Q 是估计的分布,应尽量等于 P。

二者一致时,交叉熵就等于 P 的熵

4、相对熵
【本质含义:由于编码方案不一定完美,导致的平均编码长度的增大值】

1)用来衡量2个取值为正数的函数的相似性

2)2个完全相同的函数,相对熵为0;差异越大,相对熵越大;

3)概率分布函数,或 概率密度函数,若函数值均大于0,相对熵可以度量两个随机分布的差异性;

4)相对熵不对称,没有交换律

转自:知乎
0 0
原创粉丝点击