【PRML学习笔记】信息论与最大熵
来源:互联网 发布:数据库本地保存位置 编辑:程序博客网 时间:2024/05/17 02:33
信息论与最大熵
序
If we are told that a highly improbable event has just occurred, we will have received more information than if we were told that some very likely event has just occurred, and if we knew that the event was certain to happen we would receive no information.
一、信息论
信息熵是人们对客观事件的不确定性的度量。正如序中所言,对于一个事物,我们知道的越有可能发生,那么我们用来找出确定的情况所需要得到信息就越少,反之亦然。
此外,信息熵还具有可加的性质。两个事物如果是不相关的,如果我们同时得到的两个事物,那么我们所接收的信息是可以叠加的。我们使用
对于一个事件的集合{x},每个事件对应的概率为
对于连续的随机变量,从离散的情况进行推导,得到:
二、最大熵
最大熵原理是一种选择随机变量统计特性最符合客观情况的准则,也称为最大信息原理。随机量的概率分布是很难测定的,一般只能测得其各种均值(如数学期望、方差等)或已知某些限定条件下的值(如峰值、取值个数等),符合测得这些值的分布可有多种、以至无穷多种,通常,其中有一种分布的熵最大。选用这种具有最大熵的分布作为该随机变量的分布,是一种有效的处理方法和准则。这种方法虽有一定的主观性,但可以认为是最符合客观情况的一种选择。在投资时常常讲不要把所有的鸡蛋放在一个篮子里,这样可以降低风险。在信息处理中,这个原理同样适用。
这里我们来计算几个简单的最大熵分布。对于离散的随机变量来说,因为
如果是连续的随机变量,如果限定X的取值范围为[a,b],在标准化的限制条件,那么信息熵的最大值同上式类比得到:
对
其次,当限制条件为:1、标准化状态(概率之和为1)2.一阶统计矩即平均数
参照上面的方法,引入拉格朗日算子得到:
把(5)带入(2)得到
把(5)带入(3)得到
所以在上述约束条件下,最大熵对应连续随机变量的概率密度函数为:
- 【PRML学习笔记】信息论与最大熵
- 《信息论与编码》学习笔记
- 信息论与编码 学习笔记(一)
- 信息论、最大熵模型
- PRAML学习笔记-信息论
- PRML 学习笔记
- Deep Learning学习笔记——概率与信息论
- 深度学习第三章-概率与信息论笔记
- 信息论笔记—熵
- 熵与信息论
- PRML CHAPTER 2 学习笔记
- PRML学习笔记(1)
- PRML学习笔记(一)
- PRML 学习笔记(1)
- PRML 学习笔记(2)
- 机器学习笔记(PRML)
- 【PRML】第一章绪论学习笔记
- 机器学习笔记(PRML)
- Spark开发-RDD分区重新划分
- Java 注解处理器
- poj 1269Intersecting Lines (直线相交判断,求相交交点)
- NB-IoT是什么鬼(转)
- android源码编译--Mac OS
- 【PRML学习笔记】信息论与最大熵
- Hadoop各种压缩的应用场景与使用
- 【093】深度学习读书笔记:P29证明矩阵特征值的和等于矩阵的迹
- Rhyme/Java 继承相较于组合的优势在哪里?
- hihocoder编程收割赛30
- Maven下载安装及repository路径修改
- 123
- [境内法律]中华人民共和国反恐怖主义法
- 1.7.3停止线程(抛出异常)