第五章决策树

来源：互联网发布：王者荣耀芈月知乎编辑：程序博客网时间：2024/06/07 01:15

1、决策树(decision tree)：是一种基本的分类与回归方法。

呈树形结构，在分类问题中，表示基于特征对实例进行分类的过程。

可以认为是if-then规则的集合，也可以认为是定义在特征空间与类空间上的条件概率分布。

主要优点：模型具有可读性，分类速度快。

学习时，利用训练数据，根据损失函数最小化的原则建立决策树模型。预测时，对新的数据，利用决策树模型进行分类。

包括3个步骤：特征选择、决策树的生成和决策树的修剪。

2、决策树：分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点（node）和有向边（directed edge）组成。

结点有两种类型：內结点（internal node）：（表示一个特征和属性）

叶结点(leaf node)：（表示一个类）。

本质是：从训练数据集中归纳出一组分类规则。（能对训练数据进行正确分类的决策树可能有多个，也可能一个也没有）

学习的策略:以损失函数为目标函数的最小化。通常决策树学习的损失函数是正则化的极大似然函数。

3、特征选择：在于选取对训练数据具有分类能力的特征，也可以说是选择用那个特征来划分特征空间。（提高决策树学习的效率）

没有分类能力的特征：如果利用一个特征进行分类的结果与随机分类的结果没有很大差别。

特征选择的准则：信息增益或信息增益比

4、熵：是表示随机变量不确定性的度量。（熵只依赖于X的分布，与X的取值无关）。

熵越大，随机变量的不确定性就越大。

5、条件熵：X给定条件下Y的条件概率分布的熵对X的数学期望，H（Y|X） = SUM_{i = 1}^{n}p_{i}H(Y|X = x_{i})。其中，p_{i} = P(X = x_{i}).

6、信息增益(information gain)定义：特征A对训练数据集D的信息增益g(D,A),定义为集合D的经验熵H（D）与特征A给定条件下D的经验条件熵H(D|A)之差，即g(D,A) = H(D) - H(D|A)（信息增益大的特征具有更强的分类能力）

表示得知特征X的信息而使得类Y的信息的不确定性减少的程度。

互信息：熵H(Y)与条件熵H(Y|X)之差称为互信息（mutual information）

决策树学习中的信息增益等价于训练数据集中类与特征的互信息。

7、ID3算法的核心：在决策树各个结点上应用信息增益准则选择特征，递归地构建决策树。

8、决策树往往对训练数据的分类很准确，但对未知的测试数据的分类却没有那么准确，即出现过拟合现象。

原因：在于学习时过多地考虑如何提高对训练数据的正确分类，从而构建出过于复杂的决策树。

解决：考虑决策树的复杂度，对已生成的决策树进行简化。

剪枝（pruning）：在决策树学习中将已生成的树进行简化的过程称为剪枝。

9、CART算法：分类与回归树（classification and regression tree）

决策树的生成就是递归地构建二叉决策树的过程，对回归树用平方误差最小化准则，对分类树用基尼指数（Gini index）最小化准则，进行特征选择，生成二叉树。