关于信息增益、信息熵、条件熵

来源:互联网 发布:淘宝退款贴吧 编辑:程序博客网 时间:2024/06/05 21:05

信息增益=信息熵—条件熵


信息熵

https://zhuanlan.zhihu.com/p/26486223

其中P(x_{i}) 代表随机事件X为x_{i} 的概率,下面来逐步介绍信息熵的公式来源!

信息量与事件x发生的概率成负相关,,因为,一个具体事件的信息量应该是随着其发生概率而递减的,且不能为负。

  h(x)=-log_{2}p(x)  概率越小,信息量越大

信息量度量的是一个具体事件发生了所带来的信息,而熵则是在结果出来之前对可能产生的信息量的期望——

考虑该随机变量的所有可能取值,即所有可能发生事件所带来的信息量的期望。即信息熵

事件越复杂,信息熵越大 H(x)=-sum (p(x)log_{2}p(x) )

这里我再说一个对信息熵的理解。信息熵还可以作为一个系统复杂程度的度量,如果系统越复杂,

出现不同情况的种类越多,那么他的信息熵是比较大的。如果一个系统越简单,出现情况种类很少

(极端情况为1种情况,那么对应概率为1,那么对应的信息熵为0),此时的信息熵较小。



条件熵条件熵是另一个变量Y熵对X(条件)的期望。https://zhuanlan.zhihu.com/p/26551798


其实条件熵意思是按一个新的变量的每个值对原变量进行分类,比如上面这个题把嫁与不嫁按帅,不帅分成了俩类。

然后在每一个小类里面,都计算一个小熵,然后每一个小熵乘以各个类别的概率,然后求和。

我们用另一个变量对原变量分类后,原变量的不确定性就会减小了,因为新增了Y的信息,可以感受一下。不确定程度减少了多少就是信息的增益。


信息增益:   https://www.zhihu.com/question/22104055

信息增益代表了在一个条件下,信息复杂度(不确定性)减少的程度。

那么我们现在也很好理解了,在决策树算法中,我们的关键就是每次选择一个特征,特征有多个,那么到底按照什么标准来选择哪一个特征。

这个问题就可以用信息增益来度量。如果选择一个特征后,信息增益最大(信息不确定性减少的程度最大),那么我们就选取这个特征。


通过计算各个特征的信息增益发现,身高的信息增益最大,也就是:身高这个特征对于我们广大女生同学来说,决定嫁不嫁给自己的男朋友是很重要的。那么我就可以说,孟非哥哥,我想知道男嘉宾的一个特征是身高特征。因为它在这些特征中,身高对于我挑夫君是最重要的,信息增益是最大的,知道了这个特征,嫁与不嫁的不确定度减少的是最多的。








原创粉丝点击