熵与信息增益随记

来源:互联网 发布:电驴连接不上kad网络 编辑:程序博客网 时间:2024/06/04 19:19

最近在一些地方用到了最大熵和信息增益的概念,所以回过头来重新复习了一下具体的概念。

熵与信息增益

在决策树算法中,决定特征优先级时,需要用到熵的概念,先挖个坑

1信息量

信息量是用来衡量一个事件的不确定性的;一个事件发生的概率越大,不确定性越小,则它所携带的信息量就越小。

2 熵

熵是用来衡量一个系统的混乱程度的,代表一个系统中信息量的总和;信息量总和越大,表明这个系统不确定性就越大。

信息量用来衡量一个事件的不确定度,熵则用来衡量一个系统(也就是所有事件)的不确定度。

那如何度量系统中所有事件的不确定度?期望。

注:熵的单位随着公式中log运算的底数而变化,当底数为2时,单位为“比特”(bit),底数为e时,单位为“奈特”。

下面手撸了一遍公式,如下所示
这里写图片描述

这里写图片描述

这里写图片描述

其实概念在这里有一定的承继关系 熵—–》条件熵 ——》信息增益——》互信息
小结:
1.根据最大似然估计的正确性可以断定:
2. 最大熵的解(无偏的对待不确定性)是最符合样本数据分布的解,即最大熵模型的合理性;
3.信息熵可以作为概率分布集散程度的度量,使用熵的近似可以推导出gini系数,在统计问题、决策树等问题中有重要应用;
熵:不确定性的度量;
最大熵模型:对不确定度的无偏分配;

原创粉丝点击