决策学习笔记

来源：互联网发布：移动网络玩电信游戏编辑：程序博客网时间：2024/05/23 15:28

1
1.1决策树模型：决策树是对实例进行分类的树形结构，决策树是由节点和有向边组成。节点有两种类型：内部节点和叶节点。内部节点：表示一个特征或则属性，叶节点表示一个类。内部节点对应着规则的条件，叶节点对应着规则的结论。

1.2.决策树学习本质上：是从训练数据集中归纳出一组分类规则。

1.3.决策树学习算法的步骤：1.开始构建根节点，将所有训练数据都放在根节点，选择一个最优的特征，按照这一特征将训练数据集分割成子集，使得每个子集在当前条件下有最好的分类。如果这些子集已经能够被基本正确分类，那么构建叶节点，并将这些子集分到所对应的叶节点中去。如果还有子集不能被基本正确分类，那么对这些子集选择新的最优特征，继续对其进行分割，构建相应的节点，如此递归下去，直到所有训练数据子集被基本正确分类，或则没有合适的特征为止。最后每个子集都被分到叶节点上，即都有了明确的类，这就生成一颗决策树。

1.4.但是上述方法可能对训练数据有很好的分类能力，但是对于预测数据未必有较好的分类能力，这就是产生了过拟合现象。从而需要对其进行剪枝，使其具有较好的泛化能力。

1.5.决策的学习分为3步骤：特征选择，决策树的生成，决策树的剪枝。决策树的生成只是考虑局部最优，决策树的剪枝则考虑全局最优。

2
2.1特征选择：
如果利用一个特征进行分类的结果没有很大的差别，就称这个特征没有分类能力，通常特征选择的准则是：信息增益，信息增益比。

2.2信息增益：熵表示随机变量不确定的度量，熵越大随机变量的不确定越大，条件熵表示在已知随机变量X的条件下随机变量Y的不确定性。信息增益表示得知特征X的信息而使得类Y的信息不确定性减少的程度。特征A对训练数据集D的信息增益定义为：集合D的经验熵与特征A给定条件下D的经验熵之差。信息增益依赖不同的特征，不同的特征往往具有不同的信息增益，信息增益大的特征往往具有更强的分类能力。

2.3根据信息增益选择特征：对训练数据集计算每个特征的信息增益，并比较他们的大小，选择信息增益最大的特征。

2.4信息增益算法

3.决策树的生成
3.1 ID3算法：（C4.5算法时采用信息增益比来选择特征其他的和ID3一样）
ID3算法的核心是在决策树各个节点上应用信息增益准则选择特征，递归的构建决策树，具体方法是：从根节点开始，对节点计算所有可能的特征的信息增益，选择信息增益最大的特征最为节点的特征，由该特征的不同取值建立子节点；再对子节点递归调用上述方法，构建决策树；直到所有特征的信息增益很小或没有特征可以选择为止，最后得到一个决策树。

4.决策树的剪枝
上述算法会产生过拟合现象，因此我们需要将已经生成的树进行剪枝。决策树的剪枝往往是通过极小化决策树整体的损失函数或代价函数来实现的。
决策树的剪枝算法：
输入：生成算法产生的整个树T，参数a
输出：剪枝后的子树Ta

(1)计算每个节点的经验熵
(2)递归地从树的叶节点向上回缩
设一组叶节点回缩到其父节点之前与之后的整体树分别为TB和TA，其对应的损失函数值分别是Ca(TB)与Ca(TA),如果
Ca(TA) <= Ca(TB)
则进行剪枝，即将父节点变为新的叶节点。
(3)返回(2)指导不能继续为止，得到的损失函数最小的子树Ta。

0 0