白话机器学习算法（十九）CART算法

来源：互联网发布：extjs object转json 编辑：程序博客网时间：2024/05/21 06:16

http://blog.csdn.net/wangxin110000/article/details/23759341

CART （classification and regression tree）分类与回归树算法

前面说的决策树就是分类树，分类树是一种对空间的划分方法，将输入空间（特征空间）按照属性的取值范围划分为若干个不相交的区域；

这里的cart是一种二叉树

还是三个步骤

1）属性选择

2）生成树（划分）

3）剪枝

先概述下：

这里的三个步骤与前面说的两种分类树不同，对于第一点，ID3与C4.5并没有强调将每个属性的范围划分为两类，每个属性有几个离散的取值范围，那么就有几个子节点，在CART中，执行的是递归的两类划分策略，当属性的取值范围超过两类的时候，以其中的一个取值作为中点，大于小于该值的各分一类，对于离散无法比较大小的取值，采取是否的策略；

因而在CART中可以很方便的处理属性为连续取值的情况，但是相比于ID3其除了需要解决选取哪个属性作为决策节点的问题，还要解决在给定属性的情况下，选取该属性的哪个值作为划分中点；

同时在ID3与C4.5中树的一层是一个属性，但是在CART中每次向下生长都会寻找所有属性与取值中的最佳切分点，所以可能出现不同层次都是同一个属性的划分；虽然CART是二分的方法，但是其不同层次的划分属性可以相同，具体取哪个属性取决于需要划分的集合；

在剪枝方面：

CART采取的是交叉验证的方式，其使用验证数据来剪枝，使得树在正确率与复杂度方面有所权衡；

基尼指数：

基尼指数是个类似熵的东西，公式如下：