统计学习方法第5章决策树（1）

来源：互联网发布：管理数据分析编辑：程序博客网时间：2024/06/05 00:36

分类决策树是一种描述对实例进行分类的树型结构，由节点和有向边组成。
每个内部节点标示一个特征或属性，每个叶节点表示一个类。

用决策树分类，从根节点开始对实例的某一特征进行测试，根据结果将实例分配到其子节点，直到叶节点。

决策树学习本质上是从训练数据集中归纳出一组分类规则。
与训练数据集不相矛盾的决策树可能有多个或一个也没有，我们需要一个与训练数据矛盾较小，同时具有良好泛化能力的决策树。

决策树学习算法通常是一个递归地选择最优特征并根据该特征对训练数据进行分割的过程。

熵是表示随机变量不确定性的度量。
对于随机变量X：

X的熵定义为：

对于随机变量(X,Y)：

X在给定Y条件下的条件熵：

特征A对训练数据集D的信息增益g(D,A)，定义为集合D的经验熵与特征A给定条件下D的经验条件熵之差：

决策树学习中使用信息增益准则选择特征，信息增益表示了由于特征A使得对数据集D的分类的不确定性减少的程度。

对训练数据集（或子集）D计算其每个特征的信息增益，选择最大的特征。

在训练数据集的经验熵大的时候信息增益值会偏大，这时使用信息增益比进行校正：

输入：训练数据集D，特征集A，阈值ε
输出：决策树T

C4.5对ID3进行了改进，用信息增益比来选择特征。

阅读全文

0 0

统计学习方法 第5章 决策树（1）