决策树

来源：互联网发布：网络销售聊天技巧编辑：程序博客网时间：2024/05/22 07:45

近期看了周志华的机器学习的决策树，为巩固学习及便于后期复习，所以写了这个简单总结：

本书主要讲述了ID3和C4.5算法，对于CART则只是有所提及。

这三种算法是基于采用的划分不同区分的，ID3采用信息增益，C4.5采用增益率，CART采用基尼指数。

一、信息增益---ID3算法

1.1 信息熵：度量样本集合纯度最常用的一种指标；

定义样本集合D的信息熵：

$Ent(D) = -\sum_{k=1}^{|y|}p_{k}log_{2}p_{k}$

其中 $p_{k}$ 是样本集合D中第K类所占的比例。

假定离散属性a有V个可能的取值，则定义用属性a对样本集D进行划分所获得的信息增益是：

$Gain(D,a) = Ent(D)-\sum_{\upsilon =1}^{V}\frac{|D^{\upsilon }|}{|D|}Ent(D^{\upsilon })$

其中 $D^{\upsilon }$ 是通过属性a对样本集D进行划分产生的子集。

一般而言，信息增益越大，则使用属性a来进行划分所获得的“纯度提升”越大，因此可用其进行决策树的划分属性选择，即ID3算法。

然而，使用信息增益作为选择属性的指标存在一个问题：其对可取值数目较多的属性有所偏好（例如将样本的编号也作为一个属性，则其信息增益会很大，因为每个编号对应一个样本，纯度已达最大，但这样做并没有意义）。为避免这种情况，C4.5算法在信息增益的基础上加入权重，得到增益率，以此来作为选择属性的指标。

增益率定义：

$Gain\, ratio(D,a) = \frac{Gain(D,a)}{IV(a)}$

其中：

$IV(a) = -\sum_{\upsilon =1}^{V}\frac{|D^{\upsilon }|}{|D|}log_{2}\frac{|D^{\upsilon }|}{|D|}$

注：增益率准则对可取值数目较少的属性有所偏好，所以C4.5并不是直接选择增益率最大的候选划分属性，而是使用了一个启发式：先从候选划分属性中找出信息增益高于平均水平的属性，再从中选择增益率最高的。

三基尼指数---CART算法

CART算法采用与ID3和C4.5不同的选择划分属性的指标---基尼指数。

数据集D的纯度用基尼值来度量：

$Gini(D) = \sum_{k=1}^{|y|}\sum_{{k}'\not\equiv k}p_{k}p_{{k}'} = 1-\sum_{k=1}^{|y|}p_{k}^{2}$

基尼值反映了从数据集D中随机抽取两个样本，其类别标记不一致的概率。

属性a的基尼指数定义：

$Gini\: index(D,a) = \sum_{\upsilon =1}^{V}\frac{|D^{\upsilon }|}{|D|}Gini(D^{\upsilon })$

选择那些使得划分后基尼指数最小的属性作为最优划分属性。

0 0