机器学习系列05——决策树（Decision tree）

来源：互联网发布：java与js字符串转码编辑：程序博客网时间：2024/05/21 02:36

决策树（Decision tree）

1、引入

通俗来说，决策树分类的思想类似于找对象。现想象一个女孩的母亲要给这个女孩介绍男朋友，于是有了下面的对话：

这个女孩的决策过程就是典型的分类树决策。相当于通过年龄、长相、收入和是否公务员对将男人分为两个类别：见和不见。假设这个女孩对男人的要求是：30岁以下、长相中等以上并且是高收入者或中等以上收入的公务员，那么这个可以用下图表示女孩的决策逻辑。

上图完整表达了这个女孩决定是否见一个约会对象的策略，其中绿色节点表示判断条件，橙色节点表示决策结果，箭头表示在一个判断条件在不同情况下的决策路径，图中红色箭头表示了上面例子中女孩的决策过程。

2、定义

决策树（decision tree）是一个树结构（可以是二叉树或非二叉树）。其每个非叶节点表示一个特征属性上的测试，每个分支代表这个特征属性在某个值域上的输出，而每个叶节点存放一个类别。使用决策树进行决策的过程就是从根节点开始，测试待分类项中相应的特征属性，并按照其值选择输出分支，直到到达叶子节点，将叶子节点存放的类别作为决策结果。

3、决策树的构造

不同于贝叶斯算法，决策树的构造过程不依赖领域知识，它使用属性选择度量来选择将元组最好地划分成不同的类的属性。所谓决策树的构造就是进行属性选择度量确定各个特征属性之间的拓扑结构。

构造决策树的关键步骤是分裂属性。所谓分裂属性就是在某个节点处按照某一特征属性的不同划分构造不同的分支，其目标是让各个分裂子集尽可能地“纯”。尽可能“纯”就是尽量让一个分裂子集中待分类项属于同一类别。分裂属性分为三种不同的情况：

1、属性是离散值且不要求生成二叉决策树。此时用属性的每一个划分作为一个分支。

2、属性是离散值且要求生成二叉决策树。此时使用属性划分的一个子集进行测试，按照“属于此子集”和“不属于此子集”分成两个分支。

3、属性是连续值。此时确定一个值作为分裂点split_point，按照>split_point和<=split_point生成两个分支。

构造决策树的关键性内容是进行属性选择度量，属性选择度量是一种选择分裂准则，是将给定的类标记的训练集合的数据划分D“最好”地分成个体类的启发式方法，它决定了拓扑结构及分裂点split_point的选择。

属性选择度量算法有很多，一般使用自顶向下递归分治法，并采用不回溯的贪心策略。这里介绍ID3和C4.5两种常用算法。

4、ID3算法

ID3算法主要针对特征选择问题，使用信息增益准则选择特征属性。

4.1、信息论——熵

如果一件事有n种可能的结果，每种结果的概率为

那么熵为：

熵越大，随机变量的不确定性（出去活动或取消活动）就越大。

4.2、条件熵

条件熵H(Y|X)表示在已知随机变量X的条件下随机变量Y的不确定性。例如，知道天气的情况下，决定是否进行户外活动的不确定性。

熵与条件熵中概率由训练数据估计得到时，所对应的熵和条件熵称为经验熵和经验条件熵。若概率为0，令0log0=0。

4.3、信息增益

信息增益表示得知特征X(天气)的信息使得类Y(进行户外活动或取消活动)的信息的不确定性减少程度。

特征A对训练数据集D的信息增益g(D,A)，定义为集合D的经验熵H(D)与特征A给定条件下的经验条件熵H(D|A)之差，即

熵H(Y)与条件熵H(Y|X)之差称为互信息，即g(D,A)

信息增益大表明信息多，信息增多，则不确定性就越小。

数据集D，计算每个特征的信息增益，并比较他们的大小，选择信息增益最大的特征。

4.4、ID3思想

ID3算法的核心是在决策树各个子结点上应用信息增益准则选择特征，递归的构建决策树。
具体方法是:从根结点开始，对结点计算所有可能的特征的信息增益，选择信息增益最大的特征作为结点的特征，由该特征的不同取值建立子结点；再对子结点递归调用以上方法，构建决策树。直到所有特征的信息增益均很小或没有特征可以选择为止。