关于信息增益、信息熵、条件熵

来源：互联网发布：淘宝退款贴吧编辑：程序博客网时间：2024/06/05 21:05

信息增益=信息熵—条件熵

信息熵：

https://zhuanlan.zhihu.com/p/26486223

其中 $P(x_{i})$ 代表随机事件X为 $x_{i}$ 的概率，下面来逐步介绍信息熵的公式来源！

信息量与事件x发生的概率成负相关，，因为，一个具体事件的信息量应该是随着其发生概率而递减的，且不能为负。

$h(x)=-log_{2}p(x)$ 概率越小，信息量越大

信息量度量的是一个具体事件发生了所带来的信息，而熵则是在结果出来之前对可能产生的信息量的期望——

考虑该随机变量的所有可能取值，即所有可能发生事件所带来的信息量的期望。即信息熵

事件越复杂，信息熵越大 $H(x)=-sum (p(x)log_{2}p(x) )$

这里我再说一个对信息熵的理解。信息熵还可以作为一个系统复杂程度的度量，如果系统越复杂，

出现不同情况的种类越多，那么他的信息熵是比较大的。如果一个系统越简单，出现情况种类很少

（极端情况为1种情况，那么对应概率为1，那么对应的信息熵为0），此时的信息熵较小。

条件熵：条件熵是另一个变量Y熵对X（条件）的期望。https://zhuanlan.zhihu.com/p/26551798

其实条件熵意思是按一个新的变量的每个值对原变量进行分类，比如上面这个题把嫁与不嫁按帅，不帅分成了俩类。

然后在每一个小类里面，都计算一个小熵，然后每一个小熵乘以各个类别的概率，然后求和。

我们用另一个变量对原变量分类后，原变量的不确定性就会减小了，因为新增了Y的信息，可以感受一下。不确定程度减少了多少就是信息的增益。

信息增益： https://www.zhihu.com/question/22104055

信息增益代表了在一个条件下，信息复杂度（不确定性）减少的程度。

那么我们现在也很好理解了，在决策树算法中，我们的关键就是每次选择一个特征，特征有多个，那么到底按照什么标准来选择哪一个特征。

这个问题就可以用信息增益来度量。如果选择一个特征后，信息增益最大（信息不确定性减少的程度最大），那么我们就选取这个特征。

通过计算各个特征的信息增益发现，身高的信息增益最大，也就是：身高这个特征对于我们广大女生同学来说，决定嫁不嫁给自己的男朋友是很重要的。那么我就可以说，孟非哥哥，我想知道男嘉宾的一个特征是身高特征。因为它在这些特征中，身高对于我挑夫君是最重要的，信息增益是最大的，知道了这个特征，嫁与不嫁的不确定度减少的是最多的。

阅读全文

0 0