mahout探索之旅——CART分类回归算法

来源：互联网发布：云计算电子政务编辑：程序博客网时间：2024/06/05 04:56

_CART_{算法原理与理解}

CART算法的全称是分类回归树算法，分类即划分离散变量；回归划分连续变量。他与C4.5很相似，但是一个二元分类，采用的是类似于熵的GINI指数作为分类决策，形成决策树之后还要进行剪枝，我自己在实现整个算法的时候采用的是代价复杂度算法。

GINI指数

GINI指数主要是度量数据划分或训练数据集D的不纯度为主，系数值的属性作为测试属性，GINI值越小，表明样本的纯净度越高（即该样本属于同一类的概率越高）。选择该属性产生最小的GINI指标的子集作为它的分裂子集。比如下面示例中一项是3人有房，0人无房的欠款记录（GINI=0）,三个有房的全部都不欠款，是不是纯度相当高，GINI却甚小。

在节点t时，GINI指数公式：

是节点t中类j所占的比例。GINI的值范围。

构建决策树

构建决策树时通常采用自上而下的方法，在每一步选择一个最好的属性来分裂。 "最好" 的定义是使得子节点中的训练集尽量的纯度。不同的算法使用不同的指标来定义"最好"。一般有4中不同的不纯度量可以用来发现CART模型的划分，取决于目标变量的类型，对于分类的目标变量，可以选择GINI双化或有序双化；对于连续的目标变量，可以使用最小二乘偏差（LSD）或最小绝对偏差（LAD）。这里当然选择GINI指数。