信息论, 熵
来源:互联网 发布:小学网络课程 编辑:程序博客网 时间:2024/05/20 20:19
转载自:点击打开链接
1.概率与信息量为什么是对数关系的原理:
http://colah.github.io/posts/2015-09-Visual-Information/
2.交叉熵(Cross-Entropy)
交叉熵是一个在ML领域经常会被提到的名词。在这篇文章里将对这个概念进行详细的分析。
1.什么是信息量?
假设
事件A:小明考试及格,对应的概率
事件B:小王考试及格,对应的概率
可以看出,结果非常符合直观:小明及格的可能性很低(十次考试只有一次及格),因此如果某次考试及格了(大家都会说:XXX竟然及格了!),必然会引入较大的信息量,对应的
2.什么是熵?
那么什么又是熵呢?还是通过上边的例子来说明,假设小明的考试结果是一个0-1分布
即:
对应小王的熵:
虽然小明考试结果的不确定性较低,毕竟十次有9次都不及格,但是也比不上小王(1000次考试只有一次才可能不及格,结果相当的确定)
我们再假设一个成绩相对普通的学生小东,他及格的概率是
其熵为1,他的不确定性比前边两位同学要高很多,在成绩公布之前,很难准确猜测出他的考试结果。
可以看出,熵其实是信息量的期望值,它是一个随机变量的确定性的度量。熵越大,变量的取值越不确定,反之就越确定。
对于一个随机变量X而言,它的所有可能取值的信息量的期望(
如果
为了保证有效性,这里约定当
当X为0-1分布时,熵与概率p的关系如下图:
可以看出,当两种取值的可能性相等时,不确定度最大(此时没有任何先验知识),这个结论可以推广到多种取值的情况。在图中也可以看出,当p=0或1时,熵为0,即此时X完全确定。
熵的单位随着公式中log运算的底数而变化,当底数为2时,单位为“比特”(bit),底数为e时,单位为“奈特”。
3.什么是相对熵?
相对熵(relative entropy)又称为KL散度(Kullback-Leibler divergence),KL距离,是两个随机分布间距离的度量。记为
并且为了保证连续性,做如下约定:
显然,当
上式最后的
4. 什么是交叉熵?
交叉熵容易跟相对熵搞混,二者联系紧密,但又有所区别。假设有两个分布
可以看出,交叉熵与上一节定义的相对熵仅相差了
注:最大似然估计与散度(或者交叉熵)等效
特别的,在logistic regression中,
p:真实样本分布,服从参数为p的0-1分布,即
q:待估计的模型,服从参数为q的0-1分布,即
两者的交叉熵为:
对所有训练样本取均值得:
这个结果与通过最大似然估计方法求出来的结果一致。
- 信息论,熵
- 信息论, 熵
- 解析信息论中的熵
- 信息论、熵、决策树
- 熵_信息论
- 熵(信息论中)
- 信息论的熵
- 信息论的熵
- 信息论、最大熵模型
- 信息论中的熵
- 信息论的熵
- 熵与信息论
- 信息论中的各种熵
- 解析信息论中的熵
- 信息论笔记—熵
- 信息论
- 信息论
- 信息论
- Mac之常用的快捷键
- 将data对象转换为数组
- iOS可复用控件之悬浮按钮
- 快速掌握阿里云 E-MapReduce
- 条件注释判断浏览器<!--[if !IE]><!--[if IE]><!--[if lt IE 6]><!--[if gte IE 6]>
- 信息论, 熵
- redis的SortSet应用场景
- 升级OpenSSH7.2p1到OpenSSH7.6P1,升级openssl
- bzoj 3477: [Usaco2014 Mar]Sabotage luogu 【P2115】 [USACO14MAR]破坏Sabotage(二分)
- Web前端之iframe详解
- QHeaderView 自带comboBox 等控件
- git add 增加多个文件
- Java 继承、抽象、接口
- xampp Apache Access forbidden! Error 403 解决方法