统计学习方法 第5章 决策树(1)

来源:互联网 发布:管理数据分析 编辑:程序博客网 时间:2024/06/05 00:36

统计学习方法 第5章 决策树(1)

模型

分类决策树是一种描述对实例进行分类的树型结构,由节点和有向边组成。
每个内部节点标示一个特征或属性,每个叶节点表示一个类。

用决策树分类,从根节点开始对实例的某一特征进行测试,根据结果将实例分配到其子节点,直到叶节点。

决策树学习本质上是从训练数据集中归纳出一组分类规则。
与训练数据集不相矛盾的决策树可能有多个或一个也没有,我们需要一个与训练数据矛盾较小,同时具有良好泛化能力的决策树。

决策树学习算法通常是一个递归地选择最优特征并根据该特征对训练数据进行分割的过程。

特征选择

熵和条件熵

熵是表示随机变量不确定性的度量。
对于随机变量X:

X的熵定义为:

对于随机变量(X,Y):

X在给定Y条件下的条件熵:

信息增益

特征A对训练数据集D的信息增益g(D,A),定义为集合D的经验熵与特征A给定条件下D的经验条件熵之差:

决策树学习中使用信息增益准则选择特征,信息增益表示了由于特征A使得对数据集D的分类的不确定性减少的程度。

对训练数据集(或子集)D计算其每个特征的信息增益,选择最大的特征。

在训练数据集的经验熵大的时候信息增益值会偏大,这时使用信息增益比进行校正:

生成

ID3算法

输入:训练数据集D,特征集A,阈值ε
输出:决策树T

  1. 若D中所有实例属于同一类,则T为单节点树,将该类作为该节点的类
  2. 若A为空集,则T为单节点树,将D中实例数最大的类作为该节点的类
  3. 否则计算A中各特征对D的信息增益,选最大的特征
  4. 若最大信息增益小于ε,则T为单节点树,将D中实例数最大的类作为该节点的类
  5. 否则依据信息增益最大的特征将D分隔为若干非空子集,构建子节点
  6. 递归调用1~5

C4.5算法

C4.5对ID3进行了改进,用信息增益比来选择特征。