【ML笔记】决策树剪枝

来源:互联网 发布:snp面膜怎么样知乎 编辑:程序博客网 时间:2024/05/02 01:12

前言

无论是分类树还是回归树,剪枝过程很重要,剪枝处理不当或是没有剪枝操作,决策树模型都是失败的,通过剪枝,可以大大提高模型准确度,避免决策树的过拟合。

C4.5剪枝

决策树生成算法递归地生成决策树,直到不能继续下去为止,产生的树对于训练集会有很好的模型准确率,但是对于未知的测试数据分类却没有那么准确,因此,对书的剪枝很重要。

决策树剪枝的算法流程如下:

输入:生成算法产生的整个树T,参数alpha

输出:修剪后的子数T-alpha

(1)计算每个节点的经验熵

(2)递归地从树的叶节点向上回缩,设回缩前后的树分别为T-B和T-A,对应的损失函数分别为C-alpha(T-B)和C-alpha(T-A),如果C-alpha(T-B)<= C-alpha(T-A),进行剪枝,将父节点变为叶子节点

(3)返回(2),直至不能剪枝为止,得到损失函数最小的子树T-alpha

CART剪枝

原创粉丝点击