CART
来源:互联网 发布:vue.js深入浅出pdf 编辑:程序博客网 时间:2024/05/16 01:27
- 简介
- 回归树
- 分类树
- 建树
简介
分类与回归树( Classification And Regression Tree,CART)模型由Breiman等人1984年提出,是应用广泛的决策树学习方法。可以用于分类也可以用于回归。
CART是在给定输入随机变量X条件下输出随机变量Y的条件概率分布的学习方法。CART假设决策树是二叉树,内部结点特征的取值为是和否。这样的决策树等价于递归地二分每个特征,将输入空间划分成有限个单元,并在这些单元上确定预测的概率分布,也就是在给定的条件下输出条件概率分布。
在构建二叉决策树的过程中,回归树是利用平方误差最小化准则,对于分类树利用基尼系数最小化准则,进行选择特征,生成二叉树。
回归树
假设X和Y分别是输入变量和输出变量,并且Y是连续变量,给定训练集
数据集大小:n
特征大小:m
一个回归树对应着输入空间(特征空间)的一个划分以及在划分单元上的输出值。
假设已经将输入空间划分成M个单元:
当用平方误差
这里采用启发式的方法,选择第j个特征
对于两个区域的输出值,用该区域中
选取最小平方误差时候的
说明:
计算的最后结果:最小平方误差时候的第
对大括号内的计算是对第
分类树
分类树选取基尼系数作为评价标准
基尼系数定义:
其中:
当各类数据量越接近的时候,基尼系数越大。
在利用基尼系数选取特征的时候,特征值把数据划分成两个部分:
用该特征划分数据的基尼系数:
其中:
最后通过选取最大
建树
输入:数据集,停止计算条件
输出:CART树
从根结点开始递归地对每个结点进行一下操作:
(1):判断是否到达停止迭代条件
1.1:数据量过少
1.2:
(2):寻找最优分割特征以及其取值
遍历所有特征,遍历所有特征的取值,计算平方误差最小时候的结果,计算公式见上
(3):根据(2)最有特征以及其取值将数据集分成两部分,调用(1)(2)
(4):结束
参考:《统计学习方法》
- cart
- CART
- CART
- CART
- Zen Cart
- Zen Cart
- Cart.aspx
- shop cart
- Zen Cart
- 决策树CART
- zen-cart
- 决策树CART
- CART算法
- 决策树CART
- CART模型
- CART算法
- CART算法
- cart决策树
- 流媒体整理
- ACdream 1213 Matrix Multiplication 其实是一道思维题
- Mapper XML 文件
- 与其他APP进行交互
- 219. Contains Duplicate II [easy] (Python)
- CART
- 静态成员应用
- python scikit-learn计算tf-idf词语权重
- jQuery 全选
- CVPR 2016 论文集
- 第十六周项目3—阅读程序(3)
- HTML5 Web Workers
- Android中的TCP协议与UDP协议
- TextView中部分添加超链接,如何处理其他部分跳转关系