决策树

来源:互联网 发布:网络销售聊天技巧 编辑:程序博客网 时间:2024/05/22 07:45

近期看了周志华的机器学习的决策树,为巩固学习及便于后期复习,所以写了这个简单总结:


本书主要讲述了ID3和C4.5算法,对于CART则只是有所提及。

这三种算法是基于采用的划分不同区分的,ID3采用信息增益,C4.5采用增益率,CART采用基尼指数。

一、信息增益---ID3算法

1.1 信息熵:度量样本集合纯度最常用的一种指标;

定义样本集合D的信息熵:


      

其中是样本集合D中第K类所占的比例。

假定离散属性a有V个可能的取值,则定义用属性a对样本集D进行划分所获得的信息增益是:


其中是通过属性a对样本集D进行划分产生的子集。

一般而言,信息增益越大,则使用属性a来进行划分所获得的“纯度提升”越大,因此可用其进行决策树的划分属性选择,即ID3算法。

二、增益率---C4.5算法

然而,使用信息增益作为选择属性的指标存在一个问题:其对可取值数目较多的属性有所偏好(例如将样本的编号也作为一个属性,则其信息增益会很大,因为每个编号对应一个样本,纯度已达最大,但这样做并没有意义)。为避免这种情况,C4.5算法在信息增益的基础上加入权重,得到增益率,以此来作为选择属性的指标。
增益率定义:
                    
  
其中:
                  

注:增益率准则对可取值数目较少的属性有所偏好,所以C4.5并不是直接选择增益率最大的候选划分属性,而是使用了一个启发式:先从候选划分属性中找出信息增益高于平均水平的属性,再从中选择增益率最高的。

三 基尼指数---CART算法
CART算法采用与ID3和C4.5不同的选择划分属性的指标---基尼指数。

数据集D的纯度用基尼值来度量:

             

基尼值反映了从数据集D中随机抽取两个样本,其类别标记不一致的概率。

属性a的基尼指数定义:
                
选择那些使得划分后基尼指数最小的属性作为最优划分属性。
0 0
原创粉丝点击