统计学习方法：决策树

来源：互联网发布：vb安装未响应编辑：程序博客网时间：2024/06/07 18:19

5.1 决策树模型与学习
5.1.1 决策树模型
分类决策树模型是一种描述对实例进行分类的树形结构，由结点和有向边组成，结点由内部结点和叶节点，内部节点表示一个特征或者属性，叶节点表示一个类。
这里写图片描述
可以将决策树看做if-then规则的集合。
决策树还表示给定特征条件下类的条件概率分布。
决策树学习的目标是根据给定的训练数据构建一个决策树模型，使它可以对实例进行正确的分类。
决策树学习的算法通常是递归的选择最优特征，并根据特征对训练数据进行分割，使得对各个子数据集有一个最好的分类过程。这一过程对应特征空间的划分，也对应着决策树的构建。开始，构建一个根节点，将所有的训练数据都放在根节点上，选择一个最优特征，在这个特征下，将训练数据分割成子集，使训练数据在当前特征下由最好的分类，如果这些子集可以被正确分类，那么构建叶节点，并将这些子集分到对应的叶节点中去。如果还有子集没有被正确分类，在这些子集中选择新的最优特征进行分割，构建相应的节点，一直递归下去，最后每一个子集都被分到一个叶节点上了。
为防止发生过拟合，需要进行自下而上的剪枝，将树变得简单。具体就是去掉过于细分的叶节点，将其回退给其父节点，甚至更高的节点，然后就父节点后者更高的节点改为新的叶节点。
决策树的学习方法包括特征选择，决策树生成和决策树的剪枝。决策树的生成对应于模型的局部选择，决策树的剪枝对应于模型的全局选择，决策树的生成只考虑局部最优，剪枝考虑全局最优。
5.2 特征选择
根据信息增益进行特征选择。
熵是表示随机变量不确定性的度量。设X是一个有限个取值的随机变量这里写图片描述那么随机变量X的熵定义就是熵越大，随机变量的不确定性就越大。
条件熵表示在一直X的条件下随机变量Y的不确定性，随机变量X给定的条件下Y的条件熵。
当熵和条件熵中的概率由数据估计来得，那这时就叫做经验熵和经验条件熵。
特征A对数据集D的信息增益g(D,A)，定义为集合D的经验熵和特征A在给定条件下D的经验条件熵H（D|A）之差，即这里写图片描述
经验熵H（D）表示对数据集D进行分类的不确定性，H（D|A）表示在给定特征A的条件下数据集D进行分类的不确定性。信息增益大的特征具有更强的分类能力。
根据信息增益进行特征选择的方法是：对训练数据集，计算每个特征的信息增益，选择最大的那个特征。
这里写图片描述
5.2.3 信息增益比
信息增益是对训练数据而言的，如果训练数据的经验熵大，那个信息增益就大，反之则小，可以使用信息增益比来解决这个问题。
定义为信息增益和训练数据的经验熵之比：
5.3 决策树的生成
5.3.1 ID3算法
在决策树的各个节点上应用信息增益准则选择特征，递归的构建决策树。
这里写图片描述
ID3算法只有树的生成，所以容易过拟合。
5.3.2 C4.5算法
类似于ID3，但是使用的是信息增益比。

5.4 决策树的剪枝
决策树的剪枝通过极小化决策函数整体的损失函数或代价行数来实现。
设树T的叶节点的个数为|T|，t是T的叶节点，这个叶节点上由Nt个样本点，其中k类的样本点由Ntk个（k=1,2,3…K），Ht(T)为叶节点t上的经验熵，损失函数的定义为这里写图片描述

5.5 CART算法
？？？

0 0