信息熵 交叉熵 相对熵 条件熵
来源:互联网 发布:韩剧软件 编辑:程序博客网 时间:2024/06/07 22:01
- 信息熵
- 交叉熵
- 相对熵
- 联合熵
- 条件熵
- 参考文献
根据香农公式,信息量等于
log(1p) ;
交叉熵常作为机器学习中的损失函数;
条件熵作为最大熵模型的优化目标;
1. 信息熵
熵的本质是信息量的期望:
其中,p 是真实的分布;
2. 交叉熵
现在假设一个估计分布q,则交叉熵即为:
交叉熵可在神经网络(机器学习)中作为损失函数,p表示真实标记的分布,q则为训练后的模型的预测标记分布,交叉熵损失函数可以衡量p与q的相似性。交叉熵作为损失函数还有一个好处是使用sigmoid函数在梯度下降时能避免均方误差损失函数学习速率降低的问题,因为学习速率可以被输出的误差所控制。
分析原因:
一组含有m个样本的数据集
X={x(1),x(2),...,x(m)} ,样本之间独立,服从于生成分布pdata(x) ,现在我们学习一个模型pmodel(x,θ) ,通过最大似然函数估计θ ;
argmaxθ∏impmodel(y|xi,θ)
取对数:
因为当我们重新缩放代价函数时 argmax 不会改变,我们可以除以 m 得到和训练数据经验分布argmaxθ∑imlog(pmodel(y|xi,θ)) p^data 相关的期望作为准则:
argmaxθEx∼p^datalog(pmodel(y|xi,θ))
通过KL散度计算两个分布之间的差异,最小化差异相当于最小化交叉熵(下结介绍)。
3. 相对熵
相对熵用来衡量两个分布之间的差异,又叫做KL散度;(重采样使用一个简单的q分布替代原始的p分布);
发现:最小化KL散度时,
比如TD-IDF算法就可以理解为相对熵的应用:词频在整个语料库的分布与词频在具体文档中分布之间的差异性
4.联合熵
两个随机变量
5.条件熵
两个随机变量的条件概率为:
在最大熵模型中,数据集
从数据集中可以计算出经验联合分布
假定模型期望等于经验分布的期望,即:
最大
参考文献
https://www.zhihu.com/question/41252833
- 信息熵 交叉熵 相对熵 条件熵
- 信息、信息熵、条件熵、信息增益、信息增益比、基尼系数、相对熵、交叉熵
- 与信息熵相关的概念梳理(条件熵/互信息/相对熵/交叉熵)
- 信息熵,条件熵,相对熵
- 交叉熵 相对熵
- 熵 相对熵 交叉熵
- 交叉熵与相对熵
- 相对熵和交叉熵
- 熵、联合熵、条件熵、交叉熵与相对熵意义
- 计算语言学之条件熵与联合熵、相对熵与交叉熵的应用
- 一文总结条件熵、交叉熵、相对熵、互信息
- 交叉熵与相对熵 ---转载
- 【DL笔记】相对熵与交叉熵
- 数学之美--信息的度量和作用--信息熵,条件熵和交叉熵
- 条件熵 信息增益
- 相对熵(互熵,交叉熵,鉴别信息,Kullback熵,Kullback-Leible散度即KL散度)的深入理解
- 熵、交叉熵和相对熵的区别与联系
- 熵,互信息,KL距离(相对熵),交叉熵
- Web后台管理系统框架模板
- (0065)iOS开发之工具条UIToolBar
- 实现一个布隆过滤器
- Java set集合 交集,并集,差集
- python之selenium安装及使用方法简介
- 信息熵 交叉熵 相对熵 条件熵
- hdu5608 function
- mysql监控工具断网部署Percona Monitoring and Management ,Perocona的官方监控工具Docker安装教程
- 数组中的逆序对
- 狗逃离迷宫
- jmap命令打印堆栈信息文件
- Java 7之基础
- JS DOM(文档对象模型)与BOM(浏览器对象模型)
- Visual Studio 匹配花括号的背景颜色