信息熵和信息增益
来源:互联网 发布:机票数据 编辑:程序博客网 时间:2024/06/06 03:15
熵可以理解为信息量,而信息量又可以理解为随机性。因为一个系统的随机性越大,我们去了解这个系统的难度也就越大,它包含的信息量应该也越大。通俗的来说,就是若不确定性越大,则信息量越大,熵越大;若不确定性越小,则信息量越小,熵越小。举例来说,掷一个硬币,和掷一个色子,这两个系统,谁包含的信息量大呢?直观理解当然是后者。深入考虑一下这是为什么呢?因为掷一个色子能够产生6种状态,而一枚硬币只有两种状态。
那么怎样衡量一个系统信息量的大小呢?这就是熵的概念了,计算公式如下
从这个公式看一下信息量与熵(就是这个公式),是不是对应起来的:
1 考虑一个极端的情况,系统只有一种状态,此时系统非常稳定。再来看熵,等于0.这是合理的
2 如果一个系统包含的状态多于1种。举例来说,一个指针转盘,包含三种状态,10元奖,100元奖,和500W大奖。在一切正常的情况下,三个状态出现的概率相同,我们预测指针最后的指向是最难的,这个系统的信息量也就是最大的。而如果在10元这里放一个干扰器或者吸铁石之类的干扰装置,那么指针落在10元区的概率大大提升,比如是0.9,剩余的两个区域等概率出现,都是0.05,此时我们再去预测指针的指向就容易多了,因为指针基本会落在10元区。因此这两个系统,前一个应该包含更多的信息量。
再看熵的公式
也是符合情况的。
3 数学上可以证明,当p1=p2=..pn=1/n时,系统的信息量最大=logn
理解了熵,就能理解信息增益。信息增益是相对于特征来说的,是衡量一个特征对于一个系统的重要性的指标。信息增益的公式如下
他表示,原有的信息量减去去掉该特征之后的信息量就等于该特征的信息量,也表示信息不确定性减少的程度。信息增益越大表示此特征越重要。
举例计算:
- 信息熵和信息增益
- 熵和信息增益
- 关于信息增益和熵
- 【机器学习】信息、熵和信息增益
- python 计算信息熵和信息增益
- 信息增益和马尔科夫
- 熵,信息增益,信息增益率,Gini
- 信息增益 熵 信息增益率
- 熵、信息增益、信息增益比
- 熵,信息增益,信息增益率,Gini
- 信息熵与信息增益
- 信息熵、gini、信息增益
- 条件熵 信息增益
- 熵、信息增益
- 熵与信息增益
- 熵、信息增益
- 熵、信息增益
- 信息增益-香农熵
- 2016全球大数据战略版图剖析(6):应用篇下
- linux后台运行和关闭、查看后台任务
- composer win7环境下的安装和使用
- Qt之QFileIconProvider
- 高效率,将上传图片至服务器
- 信息熵和信息增益
- 【考试系统运维】——管理至上
- 加速gradle 使用
- 分析android crash log(记录未实验)
- 实现多线程有两种方法: Thread类继承和Runnable接口实现
- Win10 MicrosoftEdge的卸载和重装
- es 常用curl命令
- 类和类之间的关系
- Spring 事物的传播特性