决策树（二）

来源：互联网发布：淘宝店铺自定义模板编辑：程序博客网时间：2024/06/05 09:24

5.3决策树的生成

5.3.1 ID3算法

ID3算法的核心实在决策树个国际电商应用信息增益准则选择特征，递归的构建决策树。

具体方法：从根结点（root node）开始，对接点计算所有可能的特征信息增益，选择信息增益最大的特征最为节点的的特征（注意：信息增益表示得知特征X的信息而使得类Y的信息不确定性减少的程度，而我们进行特征选择在于选取对训练数据具有分类能力的特征，利用一个特征进行分类的结果与随机分类的记过差别越大，这个特征的分类能力越强，即越有效。）由该特征的不同取值建立子结点；再对子结点递归的调用上述方法，构建决策树；直到所有特征的信息增益均很小或没有特征可以选择为止，ID3相当于用极大似然法进行概率模型的选择。

算法5.2 ID3算法

输入：训练数据集，特征集A，阕值ε；

输出：决策树T

（1）若D中所有实例属于同一类别Ck,则T为单结点树，并将Ck作为该节点的类标记，返回T；

（2）若A=∅，则T为单结点树，并将D中实例数最大的类Ck作为该节点的类标记，返回T；

（3）否则，按算法5.1计算A中个特征对D的信息增益，选择信息增益最大的的特征Ag；

（4）若Ag的信息增益小于阕值ε，则置A为单结点树，并将D中实例数最大的类Ck作为该节点的类标记，返回T;

（5）否则，对Ag的每一可能值ai，依Ag=ai将D分割为若干非空子集Di，将Di中实例数最大的类作为标记，构建子结点，由节点及其子结点构成树T，返回树T;

（6）对第i个子结点，以Di为训练集，以A-{Ag}为特征集，递归的调用（1）~（5），得到字数Ti，返回Ti;

算法5.3 C4.5算法

C4.5算法与ID3算法相似，C4.5算法对ID3算法做了改进，用信息增益比来选择特征。

5.4 决策树的剪枝