熵与信息增益随记

来源：互联网发布：电驴连接不上kad网络编辑：程序博客网时间：2024/06/04 19:19

最近在一些地方用到了最大熵和信息增益的概念，所以回过头来重新复习了一下具体的概念。

熵与信息增益

在决策树算法中，决定特征优先级时，需要用到熵的概念，先挖个坑

1信息量

信息量是用来衡量一个事件的不确定性的；一个事件发生的概率越大，不确定性越小，则它所携带的信息量就越小。

2 熵

熵是用来衡量一个系统的混乱程度的，代表一个系统中信息量的总和；信息量总和越大，表明这个系统不确定性就越大。

信息量用来衡量一个事件的不确定度，熵则用来衡量一个系统（也就是所有事件）的不确定度。

那如何度量系统中所有事件的不确定度？期望。

注：熵的单位随着公式中log运算的底数而变化，当底数为2时，单位为“比特”(bit)，底数为e时，单位为“奈特”。

下面手撸了一遍公式，如下所示
这里写图片描述

这里写图片描述

其实概念在这里有一定的承继关系熵—–》条件熵 ——》信息增益——》互信息
小结：
1.根据最大似然估计的正确性可以断定：
2. 最大熵的解（无偏的对待不确定性）是最符合样本数据分布的解，即最大熵模型的合理性；
3.信息熵可以作为概率分布集散程度的度量，使用熵的近似可以推导出gini系数，在统计问题、决策树等问题中有重要应用；
熵：不确定性的度量；
最大熵模型：对不确定度的无偏分配；

阅读全文

0 0