信息熵和信息增益

来源:互联网 发布:机票数据 编辑:程序博客网 时间:2024/06/06 03:15

熵可以理解为信息量,而信息量又可以理解为随机性。因为一个系统的随机性越大,我们去了解这个系统的难度也就越大,它包含的信息量应该也越大。通俗的来说,就是若不确定性越大,则信息量越大,熵越大;若不确定性越小,则信息量越小,熵越小。举例来说,掷一个硬币,和掷一个色子,这两个系统,谁包含的信息量大呢?直观理解当然是后者。深入考虑一下这是为什么呢?因为掷一个色子能够产生6种状态,而一枚硬币只有两种状态。
那么怎样衡量一个系统信息量的大小呢?这就是熵的概念了,计算公式如下
这里写图片描述
从这个公式看一下信息量与熵(就是这个公式),是不是对应起来的:
1 考虑一个极端的情况,系统只有一种状态,此时系统非常稳定。再来看熵,等于0.这是合理的

2 如果一个系统包含的状态多于1种。举例来说,一个指针转盘,包含三种状态,10元奖,100元奖,和500W大奖。在一切正常的情况下,三个状态出现的概率相同,我们预测指针最后的指向是最难的,这个系统的信息量也就是最大的。而如果在10元这里放一个干扰器或者吸铁石之类的干扰装置,那么指针落在10元区的概率大大提升,比如是0.9,剩余的两个区域等概率出现,都是0.05,此时我们再去预测指针的指向就容易多了,因为指针基本会落在10元区。因此这两个系统,前一个应该包含更多的信息量。
再看熵的公式
这里写图片描述

也是符合情况的。

3 数学上可以证明,当p1=p2=..pn=1/n时,系统的信息量最大=logn

理解了熵,就能理解信息增益。信息增益是相对于特征来说的,是衡量一个特征对于一个系统的重要性的指标。信息增益的公式如下

他表示,原有的信息量减去去掉该特征之后的信息量就等于该特征的信息量,也表示信息不确定性减少的程度。信息增益越大表示此特征越重要。

举例计算:

0 0
原创粉丝点击