【DL笔记】相对熵与交叉熵
来源:互联网 发布:windows主题桌面 编辑:程序博客网 时间:2024/05/30 04:18
前言
相对熵(Relative Entropy)与交叉熵(Cross Entropy)二者经常出现在深度学习的公式与算法中,本文介绍二者的计算以及之间的区别。
关于熵
熵是衡量信息量的物理量,在决策树算法中涉及到的信息熵、信息增益、信息增益率等都与此相关,详细可参见这篇文章。
相对熵
相对熵(relative entropy)又称为KL散度(Kullback-Leibler divergence),KL距离,是两个随机分布间距离的度量。记为DKL(p||q)。它度量当真实分布为p时,假设分布q的无效性。
并且为了保证连续性,做如下约定:
显然,当p=q时,两者之间的相对熵DKL(p||q)=0
上式最后的Hp(q)表示在p分布下,使用q进行编码需要的bit数,而H(p)表示对真实分布p所需要的最小编码bit数。基于此,相对熵的意义就很明确了:DKL(p||q)表示在真实分布为p的前提下,使用q分布进行编码相对于使用真实分布p进行编码(即最优编码)所多出来的bit数。
上式最后的Hp(q)表示在p分布下,使用q进行编码需要的bit数,而H(p)表示对真实分布p所需要的最小编码bit数。基于此,相对熵的意义就很明确了:DKL(p||q)表示在真实分布为p的前提下,使用q分布进行编码相对于使用真实分布p进行编码(即最优编码)所多出来的bit数。
交叉熵
交叉熵容易跟相对熵搞混,二者联系紧密,但又有所区别。假设有两个分布p,q,则它们在给定样本集上的交叉熵定义如下:
可以看出,交叉熵与上一节定义的相对熵仅相差了H(p),当p已知时,可以把H(p)看做一个常数,此时交叉熵与KL距离在行为上是等价的,都反映了分布p,q的相似程度。最小化交叉熵等于最小化KL距离。它们都将在p=q时取得最小值H(p)(p=q时KL距离为0),因此有的工程文献中将最小化KL距离的方法称为Principle of Minimum Cross-Entropy (MCE)或Minxent方法。
特别的,在logistic regression中,
p:真实样本分布,服从参数为p的0-1分布,即X∼B(1,p)
q:待估计的模型,服从参数为q的0-1分布,即X∼B(1,q)
两者的交叉熵为:
特别的,在logistic regression中,
p:真实样本分布,服从参数为p的0-1分布,即X∼B(1,p)
q:待估计的模型,服从参数为q的0-1分布,即X∼B(1,q)
两者的交叉熵为:
这个结果与通过最大似然估计方法求出来的结果一致。
阅读全文
0 0
- 【DL笔记】相对熵与交叉熵
- 交叉熵与相对熵
- 交叉熵与相对熵 ---转载
- 交叉熵和DL散度
- 交叉熵 相对熵
- 机器学习笔记——相对熵 交叉熵
- 熵 相对熵 交叉熵
- 熵、交叉熵和相对熵的区别与联系
- 如何通俗的解释交叉熵与相对熵?
- 相对熵和交叉熵
- 计算语言学之条件熵与联合熵、相对熵与交叉熵的应用
- 熵、联合熵、条件熵、交叉熵与相对熵意义
- 与信息熵相关的概念梳理(条件熵/互信息/相对熵/交叉熵)
- 10.2 香农熵、相对熵(KL散度)与交叉熵
- 信息熵 交叉熵 相对熵 条件熵
- 熵,互信息,KL距离(相对熵),交叉熵
- 熵,交叉熵,相对熵(KL散度)
- 交叉熵、相对熵及KL散度通俗理解
- 禁用/启用网卡
- 达人篇:3.1)质量检验
- 面试题8:二叉树的下一个节点
- DTO与Entity相互转化
- nodejs handlebars 如何添加helper
- 【DL笔记】相对熵与交叉熵
- Windows常用快捷键整理
- Windows10 中的 Linux
- 数据库的操作
- 欢迎使用CSDN-markdown编辑器
- HTML5应用——欢乐老虎机
- 无题
- lua元表(2)
- JavaWeb中文乱码