决策树（一）

来源：互联网发布：ican3官方软件下载编辑：程序博客网时间：2024/05/21 09:03

5.1决策树模型与学习

5.1.1决策树模型

分类决策树模型是一种描述对对实例进行分类的树形结构。决策树由节点和有向边组成。节点有两种类型：内部节点（internal node）和叶节点（leaf node）。内部节点表示一个属性或特征，叶节点表示一个类。

用决策树分类，从根结点开始，对实例的某一特征进行测试，根据测试结果，将实例分配到其子节点。

5.1.2决策树与if-then规则

可以将决策树看成一个if-then规则的集合。规则：由决策树的根节点的每一条路径构建一条规则；

路径上内部节点的特征对应规则的条件，而叶节点的类对应着规则的结论。

决策树的路径或其对应的if-then规则集合具有一个重要的性质：互斥并且完备。即每一个实例都被一条路径或者一条规则所覆盖，而且只被一条路径或一条规则所覆盖。

5.1.3决策树与条件概率分布

决策树还表示给定特征条件下的条件概率分布，定义在特征空间上的一个划分上，将特征空间划分为互不相交的单元或区域，并在每个单元定义一个类的概率分布就构成了一个条件概率分布。

决策树的一条路径对应于划分中的一个单元，决策树所表示的条件概率分布由各个单元给定条件下类的条件概率分布组成。假设X为表示特征的随机变量，Y为表示类的随机变量，那么这个条件概率分布可以表示为P(Y|X).X取值于给定划分下单元的集合，Y取值于类的集合。各叶节点（单元）上的条件概率往往偏向某一个类，即属于某一类的概率比较大。决策树分类时将该节点的实例强行分到条件概率大的那一块去。

5.1.4决策树学习

本质：从训练数据集中归纳出一组分类规则。与训练数据集不相矛盾的决策树可能有0/N个。

决策树学习的损失函数通常是正则化的极大似然函数，决策树学习的策略是以损失函数为目标函数的最小化。

从所有可能的决策树种选取最优决策树是NP完全问题，所以选始终决策树学习算法通常采用启发式方法，这样得到的决策树是次优的。

决策树学习的算法通常是一个递归的选择最优特征，并根据该特征对训练数据进行分割，使得对各子数据集有一个最好的分类的过程。这一过程对应着对特征空间的划分，也对应着决策树的构建。

a.构建根节点，所有训练数据放在根节点

b.选择一个最优特征，按照这一特征将训练数据集分割成子集，使得各个子集有一个在当前条件下的最好分类

c.若这些子集已经能偶被基本分类，那么构建叶节点，并将这些子集分到所对应的叶节点中去。

d.如果还有子集不能被正确分类，那么久对这些子集选择新的最由特征，继续对其进行分割，构建相应节点

e.如此递归下去，直至所有训练数据子集被基本正确分类。

以上过程可能发生过拟合现象，需要对已生成的决策树自下而上进行剪枝。

5.2特征选择问题