熵、信息增益

来源：互联网发布：先锋乒羽淘宝商城微店编辑：程序博客网时间：2024/06/05 19:35

如果分类的事务可能划分在多个分类中，符号xi的信息量为：L(xi)=-log(2,p(xi))，p(xi)为选择xi类的概率。

熵（entropy）：信息量的期望，其公式为：

从熵的公式可以看出：

1）当类数n一定时，p(x1)= p(x2)=...=p(xn)=1/n时，熵最大，最大熵为log(2, n)

2）当类数n增大时，熵H会增大

从而可以得出：熵反映的是数据的不纯度，或者无序度，熵越大，混合的数据越多，这里的混合指两个方面：

1）每个类的概率相当。比如只有两类，某个类出现的概率非常大，而另外一个类出现的概率非常小，那么该数据比较纯，熵很小；反之，如果两个类的概率一样大（如果用频率来表示概率，也就是属于两个类的样本数一样多），则数据越不纯，熵很大

2）类的种数n很大。当向一个数据集中增加一个样本，且该样本属于例外一个类，此时类数为n+1，样本熵也会增加。

信息增益（information gain）：熵的减少量，反映数据纯度的增大量或者数据无序度的减少量，公式：

info_gain = old_entropy - new_entropy

运用：

在构造决策树中，按照某一个特征划分的标准是，划分后数据的信息增益最大。

0 0