决策树梳理

来源：互联网发布：网络算命高手编辑：程序博客网时间：2024/04/29 14:03

决策树

martin

决策树
- 基本概念
- ID3
- C45
- CART
- 剪枝处理
  - 前剪枝
  - 后剪枝

基本概念

一般的，一颗决策树包含一个根节点、若干个内部节点和若干个叶节点，所以决策树相当于多叉树。叶节点对应于决策结果，其他每个结点则对应与一个属性测试，每个节点包含的样本集合根据属性测试的结果被分到子节点中。决策树学习的目的是为了产生一棵泛化能力强，即处理未见示例能力的决策树，基本思想遵循“分而治之”的策略。

决策树的生成是一个递归过程。在决策树算法中有三种情形会导致递归返回：

当前节点包含的样本全部属于同一个类别，无需划分。
当前属性集为空，或是所有样本在所有属性集上取值相同，无法划分。此时，把当前节点标记为叶节点，并将其类别设定为该节点所含样本最多的类别。
当前节点包含的样本集合为空，不能划分。此时，同样把当前节点标记为叶节点，但将其类别设定为其父节点所含样本最多的类别。

注意：2和3不同，2是后验概率，3是把父节点的样本分布作为当前节点的先验概率。

下面给出一个决策树的例子：

dt-2.png-16.3kB

决策树相当于对特征空间进行划分，如下：

dt-1.png-7.1kB

也就是说，决策树的每条路径对应于特征空间的每个区域。对于决策树主要有以下几种：ID3，C4.5主要应用于分类任务；CART树，主要应用于预测任务，下面将逐个介绍。

ID3

对于之前给出的决策树的节点划分在ID3中有特定的方法，ID3中节点划分所衡量的指标是：信息增益。

信 息 熵 ： E (D) = - \sum k = 1 y p k l o g 2 p k

特 征 a 的 信 息 增 益 ： G a i n (D, a) = E (D) - \sum v = 1 v | D v | | D | E (D v)

一般而言，信息增益越大，则意味着使用属性

α来进行划分所获得的的“纯度提升”越大。因此，我们可用信息增益来进行决策树的划分属性选择。

给一个数据集，我们在这个数据集上来进行ID3决策树的生成：

编号色泽根蒂敲声纹理脐部触感好瓜 1 青绿蜷缩浊响清晰凹陷硬滑是 2 乌黑蜷缩沉闷清晰凹陷硬滑是 3 乌黑蜷缩浊响清晰凹陷硬滑是 4 青绿蜷缩沉闷清晰凹陷硬滑是 5 浅白蜷缩浊响清晰凹陷硬滑是 6 青绿稍蜷浊响清晰稍凹软粘是 7 乌黑稍蜷浊响稍糊稍凹软粘是 8 乌黑稍蜷浊响清晰稍凹硬滑是 9 乌黑稍蜷沉闷稍糊稍凹硬滑否 10 青绿硬挺清脆清晰平坦软粘否 11 浅白硬挺清脆模糊平坦硬滑否 12 浅白蜷缩浊响模糊平坦软粘否 13 青绿稍蜷浊响稍糊凹陷硬滑否 14 浅白稍蜷沉闷稍糊凹陷硬滑否 15 乌黑稍蜷浊响清晰稍凹软粘否 16 浅白蜷缩浊响模糊平坦硬滑否 17 青绿蜷缩沉闷稍糊稍凹硬滑否

然后，我们要计算出当前属性集合{色泽，根蒂，敲声，纹理，脐部，触感}中每个属性的信息增益。

先计算根节点的信息熵：

E (D) = - \sum k = 1 2 p k l o g 2 p k = - (8 17 l o g 2 8 17 + 9 17 l o g 2 9 17) = 0.998

计算属性“

色泽”的信息增益，它有3个可能取的值：

{青绿，乌黑，浅白}，分别记为：

D1(色泽=青绿)，包含编号为{1,4,6,10,13,17}6个样例，于是p1=36,p2=36，
D2(色泽=乌黑)，包含编号为{2,3,7,8,9,15}6个样例，于是p1=46,p2=26，
D3(色泽=浅白)，包含编号为{5,11,12,14,16}5个样例，于是p1=15,p2=45，
有了上面的信息就可以求该特征的每个属性的信息熵了：

E (D 1) = - 3 6 l o g 2 (3 6) - 3 6 l o g 2 (3 6) = 1.000

E (D 2) = - 4 6 l o g 2 (4 6) - 2 6 l o g 2 (2 6) = 0.918

E (D 3) = - 1 5 l o g 2 (1 5) - 4 5 l o g 2 (4 5) = 0.722

于是，可以计算出属性色泽的信息增益：

G a i n (D, 色 泽) = E (D) - \sum v = 1 3 | D v | | D | E (D v) = 0.998 - (6 17 \times 1.000 + 6 17 \times 0.918 + 5 17 \times 0.722) = 0.109

类似的，我们可以计算出其他属性的信息增益：

G a i n (D, 根 蒂) = 0.143

G a i n (D, 敲 声) = 0.141

G a i n (D, 纹 理) = 0.381

G a i n (D, 脐 部) = 0.289

G a i n (D, 触 感) = 0.006

显然，属性纹理的信息增益最大，于是它被选为划分属性，给出基于纹理对根节点进行划分的结果：

dt-3.png-13.5kB

然后，决策树学习算法将对每个分之节点做进一步划分。以上图第一个分支节点(纹理=清晰)为例，该节点包含的样例集合D1中有编号为{1,2,3,4,5,6,8,10,15}的9各样例，可用属性集合为{色泽，根蒂，敲声，脐部，触感}，少了一个纹理属性。基于D1计算出各个属性的信息增益：

先计算第一个分支节点的信息熵：

E (D 1) = - \sum k = 1 2 p k l o g 2 p k = - (7 9 l o g 2 7 9 + 2 9 l o g 2 2 9) = 0.764

计算属性“

色泽”的信息增益，它有3个可能取的值：

{青绿，乌黑，浅白}，分别记为：

D1(色泽=青绿)，包含编号为{1,4,6,10}4个样例，于是p1=34,p2=14，
D2(色泽=乌黑)，包含编号为{2,3,8,15}4个样例，于是p1=34,p2=14，
D3(色泽=浅白)，包含编号为{5}1个样例，于是p1=11,p2=01=0，
有了上面的信息就可以求该特征的每个属性的信息熵了：

E (D 1) = - 3 4 l o g 2 (3 4) - 1 4 l o g 2 (1 4) = 0.811

E (D 2) = - 3 4 l o g 2 (3 4) - 1 4 l o g 2 (1 4) = 0.811

E (D 3) = - 1 1 l o g 2 (1 1) - 0 \times l o g 2 (0) = 0

于是，可以计算出属性色泽的信息增益：

G a i n (D 1, 色 泽) = E (D 1) - \sum v = 1 3 | D v | | D | E (D v) = 0.764 - (4 9 \times 0.811 + 4 9 \times 0.811 + 0) = 0.043

类似的，我们可以计算出其他属性的信息增益：

G a i n (D 1, 根 蒂) = 0.458

G a i n (D, 敲 声) = 0.331

G a i n (D, 脐 部) = 0.458

G a i n (D, 触 感) = 0.458

根蒂，脐部，触感3个属性均取得了最大的信息熵增益，可任选其中之一作为划分属性，于是在第一个分支上划分后的决策树如下图：

dt-4.png-19.4kB

重复上述操作即可得如下图的最终决策树结果：

dt-5.png-33.5kB

C4.5

实际上，ID3的信息增益划分法对可取数值较多的属性有所偏好，为减少这种偏好可能带来的不利影响，C4.5算法不采用信息增益，取而代之的是信息增益率来选择最优划分特征属性。信息增益率定义为：

G a i n r a i o (D, a) = G a i n ( D , a ) I V ( a )

其中，

I V (a) = - \sum v = 1 v | D v | | D | l o g 2 | D v | | D |

IV(a)称为属性

a的“固有值”。属性

a的可能值数目越多(即V越大)，则IV(a)的值通常会越大。例如，对于上表的西瓜数据集，有：

I V (触 感) = - 12 17 l o g 2 12 17 - 5 17 l o g 2 5 17 = 0.874 (v = 2)

I V (色 泽) = - 6 17 l o g 2 6 17 - 6 17 l o g 2 6 17 - 5 17 l o g 2 5 17 = 1.580 (v = 3)

I V (编 号) = = 4.088 (v = 17)

与ID3决策树一样，同是选择最大的值作为最优划分。

CART

CART决策树是一棵二叉树，内部节点特征取值为“是”和“否”，左分支是取值为“是”的分支，右分支是取值为“否”的分支。CART决策树使用“基尼系数”来选择划分属性。基尼系数的定义如下：

G i n i (D) = \sum k = 1 y p k (1 - p k) = 1 - \sum k = 1 k p 2 k

那么对于属性

a其基尼系数即为：

G i n i (D, a) = \sum v = 1 v | D v | | D | G i n i (D v)

直观来说，Gini(D)反映了从数据集

D中随机抽取两个样本，其类别标记不一致的概率。因此，Gini(D)越小，则数据集

D的纯度越高。于是，对于属性集合

A中，选择那个使得划分后基尼系数最小的属性作为最优划分属性。

编号年龄工作房子信贷类别 1 青年否否一般否 2 青年否否好否 3 青年是否好是 4 青年是是一般是 5 青年否否一般否 6 中年否否一般否 7 中年否否好否 8 中年是是好是 9 中年否是非常好是 10 中年否是非常好是 11 老年否是非常好是 12 老年否是好是 13 老年是否好是 14 老年是否非常好是 15 老年否否一般否

求特征A1(年龄)的基尼系数：

G i n i (D, 青 年) = 5 15 [1 - (2 5 2 + 3 5 2)] + 10 15 [1 - (7 10 2 + 3 10 2)] = 0.44

G i n i (D, 中 年) = 5 15 [1 - (3 5 2 + 2 5 2)] + 10 15 [1 - (6 10 2 + 4 10 2)] = 0.48

G i n i (D, 老 年) = 5 15 [1 - (4 5 2 + 1 5 2)] + 10 15 [1 - (5 10 2 + 5 10 2)] = 0.44

由于Gini(D,青年)和Gini(D,老年)相等且最小，所以都可以作为年龄的最优切分点。

接着求工作，房子的基尼系数：

G i n i (D, 有 工 作) = 5 15 [1 - (5 5 2)] + 10 15 [1 - (4 10 2 + 6 10 2)] = 0.32

G i n i (D, 没 工 作) = 10 15 [1 - (4 10 2 + 6 10 2)] + 5 15 [1 - (5 5 2)] = 0.32

G i n i (D, 有 房 子) = 6 15 [1 - (6 6 2)] + 9 15 [1 - (3 9 2 + 6 9 2)] = 0.27

G i n i (D, 没 房 子) = 9 15 [1 - (3 9 2 + 6 9 2)] + 6 15 [1 - (6 6 2)] = 0.27

所以对工作和房子分别取0.32和0.27。接着求信贷的基尼系数：

G i n i (D, 一 般) = 0.36

G i n i (D, 好) = 0.47

G i n i (D, 非 常 好) = 0.32

Gini(D,非常好)最小，所以信贷非常好作为最优切分点。
最后，在年龄(Gini(D,青年)=0.44)，工作(Gini(D,有工作)=0.32)，房子(Gini(D,有房子)=0.27)，信贷(Gini(D,非常好)=0.32)中，房子的基尼系数最小，所以选择房子作为最有特征，有房子作为其最优切分点。于是根节点生出两个子节点，一个是叶节点，对另一个节点继续使用以上方法在年龄，工作，信贷中选择

最优特征及

最优划分点

剪枝处理

剪枝是决策树学习算法对付“过拟合”的主要手段。决策树剪枝的基本策略有“前剪枝”和“后剪枝”。前剪枝是指在决策树生成过程中，对每个节点在划分前先进行预估，若当前节点的划分不能够带来决策树泛化性能的提升，则停止划分并将当前节点标记为叶节点。后剪枝则是先从训练集生成一棵完整的决策树，然后自底向上的对非叶子节点进行考察，若将该节点对应的子树替换为叶节点能带来决策树泛化性能的提升，则将该子树替换为叶节点。在进行泛化能力考察时，采用的方法是从原数据集中留出“验证集”的方式进行验证。

给出一个数据集，已经分割为“训练集”和“验证集”：

训练集：

编号色泽根蒂敲声纹理脐部触感好瓜 1 青绿蜷缩浊响清晰凹陷硬滑是 2 乌黑蜷缩沉闷清晰凹陷硬滑是 3 乌黑蜷缩浊响清晰凹陷硬滑是 6 青绿稍蜷浊响清晰稍凹软粘是 7 乌黑稍蜷浊响稍糊稍凹软粘是 10 青绿硬挺清脆清晰平坦软粘否 14 浅白稍蜷沉闷稍糊凹陷硬滑否 15 乌黑稍蜷浊响清晰稍凹软粘否 16 浅白蜷缩浊响模糊平坦硬滑否 17 青绿蜷缩沉闷稍糊稍凹硬滑否

验证集：

编号色泽根蒂敲声纹理脐部触感好瓜 4 青绿蜷缩沉闷清晰凹陷硬滑是 5 浅白蜷缩浊响清晰凹陷硬滑是 8 乌黑稍蜷浊响清晰稍凹硬滑是 9 乌黑稍蜷沉闷稍糊稍凹硬滑否 11 浅白硬挺清脆模糊平坦硬滑否 12 浅白蜷缩浊响模糊平坦软粘否 13 青绿稍蜷浊响稍糊凹陷硬滑否