CART(Classification And Regression Tree)算法原理详解
来源:互联网 发布:fanuc pmc编程说明书 编辑:程序博客网 时间:2024/05/01 12:20
1. Gini指数
CART决策树是用”吉尼指数”来选择属性划分。数据集D的纯度可用基尼值来度量:
直观来说,
假设数据集D在属性
因此我们要做的就是在属性集合
下面以一个简单的例子来进行说明:
若采用是否有房作为分裂属性,则:
则:
故
对于婚姻状况,有3种情况:
- 是否离异
此时
则
- 是否已婚
此时
则
- 是否单身
此时
则
对于连续属性年收入,假设个样本的集合一个属性有个连续的值,那么则会有个分裂点,每个分裂点为相邻两个连续值的均值,每个属性的划分按照能减少的杂质的量来进行排序。采用如下方式来计算:
分局基尼系数最小的原则,可以选择年收入是否大于97K或者是否已婚来作为第一步的分裂条件。
2. 分裂的终止条件
节点达到完全纯度
树的深度达到用户要求的深度
节点中样本个数少于指定数目
分类条件和列别的相关程度很弱
此时说明分裂条件和类别独立,即此时的分裂条件是没有道理的,节点应该停止分裂。这里的分裂条件是按照上面的Gini Gini指数最小原则得到的分裂条件。独立性检验采用χ2 检验法,例如下表:
此时动物类别与是否为恒温相互独立,再继续分裂没有意义,因此停止分裂。
3. CART树的剪枝
CART采用复杂性剪枝法,即对于每一个非叶子节点计算它的表面误差率增益值
其中
则节点
节点
节点
继续剪枝,并找出
剪枝停止的条件
在CART树中,对所有的非叶子节点都要进行剪枝,直到剪枝为只有1个根节点为止。此时会得到一系列的决策树
参考文献:
1. 机器学习. 周志华
2. 统计学习方法. 李航
阅读全文
0 0
- CART(Classification And Regression Tree)算法原理详解
- CART(Classification And Regression Tree)
- 分类回归树-classification and regression tree-CART
- 树回归CART(Classification And Regression Tree)(1)
- 树回归CART(Classification And Regression Tree)(2)
- 分类与回归树(CART,Classification And Regression Tree)
- 分类和回归树(CART, Classification and Regression Trees)
- 分类和回归树CART(Classification and Regresstion tree)
- MLlib - Classification and Regression
- Classification and logistic regression
- 【数据挖掘】决策树之CART (Classification and Regression Trees)分类与回归树
- 分类和回归 Classification and Regression
- Machine Learning—Classification and logistic regression
- pyspark-MLlib(Classification and Regression)
- 机器学习算法笔记1_2:分类和逻辑回归(Classification and Logistic regression)
- Decision Tree and Regression Tree
- Regression(1)------The difference between classification and regression
- CART算法原理及实现
- ios之导航渐变---/导航透明/隐藏导航栏以及手势返回遇到的问题,状态栏
- C# 日期格式化
- IO流
- 51Nod X^2 Mod P
- python_函数(二)
- CART(Classification And Regression Tree)算法原理详解
- UDP协议
- 适配器模式
- 面向对象编程之单态设计模式
- Linux操作系统管理技术(三)
- 第一次用阿里云服务器,结果不能通过ip访问到云服务器
- Vue2.0的变化
- 链表的操作
- QJSON qt5.7.1+vs2015 WIN10编译