决策树中基本概念——香农熵

来源:互联网 发布:unity3d 2d物体跳跃 编辑:程序博客网 时间:2024/05/29 18:53

在学习决策树时,最重要的步骤是构建决策树。

其中,最重要的步骤是根据属性划分数据集,其中先使用哪个属性,后使用哪个属性,是决定决策树构建的好坏的重要标准。

其中,使用属性构建数据集,最重要的参考标准,就是使划分后的信息增益最大。


这里就使用到一个概念:信息熵。

熵:表示随机变量不确定性,即混乱程度的量化指标。

熵越大,不确定性越大,越无序;越小,确定性越大,越有序。


同理,一条信息的信息量大小,与不确定性直接相关。

不确定性越大,信息量越大,熵越大;

确定性越大,信息量越小,熵越小。


熵的单位是bit。

不计算信息量等,直接存储一个文件,需要的是正常的存储空间大小。

通过压缩算法,仅保留有用信息的情况下,存储的是文件的信息量。

两者数量上的差距,是冗余度。

由此可见:冗余度越大,可压缩的空间越大。反之,亦然。


香农熵的计算公式为:


注意公示的负号,P(x)表示随机变量某个取值的概率。


注意事项:

另一种度量集合无序程度的方法是:Gini impurity,基尼不纯度。


参考文章:

1、http://baike.baidu.com/link?url=1vvwdVLVFHE9e5vJEFEnK95cHSVQYy7YoCq9jjTq66MvBdGB11cxAANbN4VWjRW8X0wyrEC5n5SDAnotlPPCmq

0 0