CART分类和回归树

来源:互联网 发布:成都数据恢复公司 编辑:程序博客网 时间:2024/05/16 01:25

(^U^)ノ~ CART算法根据类标号属性的类型,当类标号属性是连续型时,生成的模型是回归树;离散型则是分类树。

(^U^)ノ~ 不同于ID3算法可以产生多个分支,CART每次分裂只能产生两个分支,所以CART产生的决策树是一棵二叉树。

(^U^)ノ~ 杂度(不纯度):gini(t)=1 -( 各类数量在数据集中的概率)的平方和。

(^U^)ノ~ 标准问题集:所有候选分支方案的集合。

                                              连续属性的标准问题集:形如 “ Is A <= d? ”。

                                              其中d的取值为:将A中不同的取值按大小排列,然后依次计算相邻两个数值的平均值,组成新的序列A‘,A’中的值就是d。

                                              离散属性的标准问题集:形如 “ Is A 属于 s? ”。满足任意s或者s的并集不能完备或为空。

                                             

  1. 生成最大树:在标准问题集中一个一个计算,计算谁能让一个节点的杂度削减最多,则该节点就按照此属性分裂。继续对节点按此划分,直到满足某个停止准则才停止分裂,最后生成一个完全生长的二叉树,称为最大树。
  2. 树的修剪:修剪之后的代价复杂度更小的话就修剪。逐渐增大a,逐渐删除分支,知道被修剪只有一个根节点,从而得到一系列树。
  3. 子树评估:1SE规则:误分类损失的一定范围内选出节点数最小的。
0 0