熵、信息增益

来源:互联网 发布:先锋乒羽淘宝商城微店 编辑:程序博客网 时间:2024/06/05 19:35

如果分类的事务可能划分在多个分类中,符号xi的信息量为:L(xi)=-log(2,p(xi)),p(xi)为选择xi类的概率。

熵(entropy):信息量的期望,其公式为:

从熵的公式可以看出:

1)当类数n一定时,p(x1)= p(x2)=...=p(xn)=1/n时,熵最大,最大熵为log(2, n)

2)当类数n增大时,熵H会增大

从而可以得出:熵反映的是数据的不纯度,或者无序度,熵越大,混合的数据越多,这里的混合指两个方面:

1)每个类的概率相当。比如只有两类,某个类出现的概率非常大,而另外一个类出现的概率非常小,那么该数据比较纯,熵很小;反之,如果两个类的概率一样大(如果用频率来表示概率,也就是属于两个类的样本数一样多),则数据越不纯,熵很大

2)类的种数n很大。当向一个数据集中增加一个样本,且该样本属于例外一个类,此时类数为n+1,样本熵也会增加。

信息增益(information gain):熵的减少量,反映数据纯度的增大量或者数据无序度的减少量,公式:

info_gain = old_entropy - new_entropy

运用:

在构造决策树中,按照某一个特征划分的标准是,划分后数据的信息增益最大。

0 0
原创粉丝点击