信息熵和信息增益

来源：互联网发布：机票数据编辑：程序博客网时间：2024/06/06 03:15

熵可以理解为信息量，而信息量又可以理解为随机性。因为一个系统的随机性越大，我们去了解这个系统的难度也就越大，它包含的信息量应该也越大。通俗的来说，就是若不确定性越大，则信息量越大，熵越大；若不确定性越小，则信息量越小，熵越小。举例来说，掷一个硬币，和掷一个色子，这两个系统，谁包含的信息量大呢？直观理解当然是后者。深入考虑一下这是为什么呢？因为掷一个色子能够产生6种状态，而一枚硬币只有两种状态。
那么怎样衡量一个系统信息量的大小呢？这就是熵的概念了，计算公式如下
这里写图片描述
从这个公式看一下信息量与熵（就是这个公式），是不是对应起来的：
1 考虑一个极端的情况，系统只有一种状态，此时系统非常稳定。再来看熵，等于0.这是合理的

2 如果一个系统包含的状态多于1种。举例来说，一个指针转盘，包含三种状态，10元奖，100元奖，和500W大奖。在一切正常的情况下，三个状态出现的概率相同，我们预测指针最后的指向是最难的，这个系统的信息量也就是最大的。而如果在10元这里放一个干扰器或者吸铁石之类的干扰装置，那么指针落在10元区的概率大大提升，比如是0.9，剩余的两个区域等概率出现，都是0.05，此时我们再去预测指针的指向就容易多了，因为指针基本会落在10元区。因此这两个系统，前一个应该包含更多的信息量。
再看熵的公式
这里写图片描述

也是符合情况的。

3 数学上可以证明，当p1=p2=..pn=1/n时，系统的信息量最大=logn

理解了熵，就能理解信息增益。信息增益是相对于特征来说的，是衡量一个特征对于一个系统的重要性的指标。信息增益的公式如下

他表示，原有的信息量减去去掉该特征之后的信息量就等于该特征的信息量，也表示信息不确定性减少的程度。信息增益越大表示此特征越重要。

举例计算：

0 0