决策树相关算法理解

来源:互联网 发布:有网站源码怎么建站 编辑:程序博客网 时间:2024/05/22 15:06

1)C4.5算法

      该算法运用信息增益率作为决策树的根节点与叶节点的选择标准。

      信息增益率可以理解为:某一属性介入参考后,对于最后判定结果的贡献程度。

      更细化一些,在香农的信息论中,信息是一系列不确定因素的集合。即不确定因素越多,信息量越大。基于这一点,信息增益率亦可理解为:某一属性介入参考后,对于结果属性判定的信息量的减少比率。


      基于这个理论,引出公式:

属性的信息增益率 = 属性信息熵增益 / 属性信息熵


注:单考虑熵增益是不够的。一般经验中,属性的可能性越多,熵就越高,但很多时候该属性并不能为结果做出很多贡献。因此为了削弱这一劣势,需要除以其原先的信息熵作为增益。


未完待续。