程序博客网 > 自建服务器绑定域名

机器学习算法（五）-CART

来源：互联网发布：自建服务器绑定域名编辑：程序博客网时间：2024/05/16 04:48

本文转自：决策树之CART算法

在之前介绍过决策树的ID3算法实现，今天主要来介绍决策树的另一种实现，即CART算法。

Contents

1. CART算法的认识

2. CART算法的原理

3. CART算法的实现

1. CART算法的认识

Classification And Regression Tree，即分类回归树算法，简称CART算法，它是决策树的一种实现，通

常决策树主要有三种实现，分别是ID3算法，CART算法和C4.5算法。

CART算法是一种二分递归分割技术，把当前样本划分为两个子样本，使得生成的每个非叶子结点都有两个分支，

因此CART算法生成的决策树是结构简洁的二叉树。由于CART算法构成的是一个二叉树，它在每一步的决策时只能

是“是”或者“否”，即使一个feature有多个取值，也是把数据分为两部分。在CART算法中主要分为两个步骤

（1）将样本递归划分进行建树过程

（2）用验证数据进行剪枝

2. CART算法的原理

上面说到了CART算法分为两个过程，其中第一个过程进行递归建立二叉树，那么它是如何进行划分的？

设代表单个样本的个属性，表示所属类别。CART算法通过递归的方式将维的空间划分为不重

叠的矩形。划分步骤大致如下

（1）选一个自变量，再选取的一个值，把维空间划分为两部分，一部分的所有点都满足，

另一部分的所有点都满足，对非连续变量来说属性值的取值只有两个，即等于该值或不等于该值。

（2）递归处理，将上面得到的两部分按步骤（1）重新选取一个属性继续划分，直到把整个维空间都划分完。

在划分时候有一个问题，它是按照什么标准来划分的？对于一个变量属性来说，它的划分点是一对连续变量属

性值的中点。假设个样本的集合一个属性有个连续的值，那么则会有个分裂点，每个分裂点为相邻

两个连续值的均值。每个属性的划分按照能减少的杂质的量来进行排序，而杂质的减少量定义为划分前的杂质减

去划分后的每个节点的杂质量划分所占比率之和。而杂质度量方法常用Gini指标，假设一个样本共有类，那么

一个节点的Gini不纯度可定义为

其中表示属于类的概率，当Gini(A)=0时，所有样本属于同类，所有类在节点中以等概率出现时，Gini(A)

最大化，此时。

有了上述理论基础，实际的递归划分过程是这样的：如果当前节点的所有样本都不属于同一类或者只剩下一个样

本，那么此节点为非叶子节点，所以会尝试样本的每个属性以及每个属性对应的分裂点，尝试找到杂质变量最大

的一个划分，该属性划分的子树即为最优分支。

下面举个简单的例子，如下图

在上述图中，属性有3个，分别是有房情况，婚姻状况和年收入，其中有房情况和婚姻状况是离散的取值，而年

收入是连续的取值。拖欠贷款者属于分类的结果。

假设现在来看有房情况这个属性，那么按照它划分后的Gini指数计算如下

而对于婚姻状况属性来说，它的取值有3种，按照每种属性值分裂后Gini指标计算如下

最后还有一个取值连续的属性，年收入，它的取值是连续的，那么连续的取值采用分裂点进行分裂。如下

根据这样的分裂规则CART算法就能完成建树过程。

建树完成后就进行第二步了，即根据验证数据进行剪枝。在CART树的建树过程中，可能存在Overfitting，许多

分支中反映的是数据中的异常，这样的决策树对分类的准确性不高，那么需要检测并减去这些不可靠的分支。决策

树常用的剪枝有事前剪枝和事后剪枝，CART算法采用事后剪枝，具体方法为代价复杂性剪枝法。可参考如下链接

剪枝参考：http://www.cnblogs.com/zhangchaoyang/articles/2709922.html

阅读全文

0 0

自建服务器绑定域名

自建服务器绑定域名

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子小飞侠彼得潘故事乐队小飞侠小飞侠点名小飞侠彼得潘在线阅读小飞侠服装小飞侠儿童剧小飞侠皮得潘小飞侠演员小飞侠彼得潘中文版小飞侠小女孩淘宝小飞侠小飞侠罗本小飞侠主题曲小飞侠pro 小飞侠静宜中文版小飞侠小飞侠彼得潘动画小飞侠童装小飞侠症候群小飞侠英文小飞侠机箱小飞侠国小飞侠彼得潘剧照小飞侠演员表小飞侠主要内容小飞侠彼得潘剧本乡村小神农飞刀王子飞手虫儿飞钢琴谱左右手小飞机英语下载小飞机英语app下载大陆年轻小帅露飞机小飞机英语免费下载中国小帅boyfriendtv飞机网盘小飞机小飞机头科技小制作飞机小飞机英语app 10万国产小飞机小飞机加速器飞机小萝莉