决策树熵与python实现

来源：互联网发布：防狼喷雾剂淘宝编辑：程序博客网时间：2024/05/29 17:46

一、信息增益与熵

在信息论中，熵被用来衡量一个随机变量出现的期望值。变量的不确定性越大，熵也就越大，把它搞清楚所需要的信息量也就越大，熵是整个系统的平均消息量。信息熵是信息论中用于度量信息量的一个概念。一个系统越是有序，信息熵就越低；反之，一个系统越是混乱，信息熵就越高。所以，信息熵也可以说是系统有序化程度的一个度量。

信息熵计算公式是：H(x)=E[I(xi)]=E[ log(1/p(xi)) ]=-∑p(xi)log(p(xi))(i=1,2,..n)。

自信息，又称信息本体，用来衡量单一事件发生时所包含的信息量的多少。如果事件发生的机率是P(x)，则信息本体I(x)的定义就是：-log（P(x)）。互信息（Mutual Information）是一有用的信息度量，它是指两个事件集合之间的相关性。（PMI）

在信息增益中，衡量标准是看特征能够为分类系统带来多少信息，带来的信息越多，该特征越重要。对一个特征而言，系统有它和没它时信息量将发生变化，而前后信息量的差值就是这个特征给系统带来的信息量。所谓信息量，其实就是熵。信息增益的计算过程如下：

1、计算熵：熵越高，混合的数据也越多。

我们检查的属性是是否出去玩。用Excel对上面数据的play变量的各个取值排个序（这个工作簿里把“play”这个词去掉），一共是14条记录，你能数出取值为yes的记录有9个，取值为no的有5个，我们说这个样本里有9个正例，5 个负例，记为S(9+,5-)，S是样本的意思(Sample)。

这里熵记为Entropy(S),计算公式为：Entropy(S)= -(9/14)*log(9/14)-(5/14)*log(5/14)

解释一下，9/14是正例的个数与总记录之比，同样5/14是负例占总记录的比例。log(.)是以2为底的对数（我们知道以e为底的对数称为自然对数，记为ln(.),lg(.)表示以10为底的对数）。

键入以下公式即得0.940：=-(9/14)*LOG(9/14,2)-(5/14)*LOG(5/14,2)

这里LOG(9/14,2)中的“2”表示以2为底。

类似地，如果你习惯用Matlab做数学运算本，公式为-(9/14)*log2(9/14)-(5/14)*log2(5/14) 其中“2”的含义与上同。

总结：在这个例子中，我们的输出属性（我们要检查的属性）“play”只有两个取值，同样地，如果输出属性的取值大于2，公式是对成的，一样的形式，连加就是，找到各个取值的个数，求出各自的比例。

如果样本具有二元输出属性，其熵的公式为

Entropy(S)=-(p+)*log(p+)-(p-)*log(p-)

其中，p+、p-分别为正例和负例占总记录的比例。输出属性取值大于2的情况，公式是对称的。

直接给出计算熵与信息增益的R代码：计算给定数据集的熵

阅读全文

0 0