决策树算法(一)-相关概念
来源:互联网 发布:广州拓飞涉密数据恢复 编辑:程序博客网 时间:2024/05/19 23:18
Entroy(D)数据集D的信息熵:
k为数据集D的类别数,比如五个数据集他们的label三个为yes,两个为no,那么k=2;
pk为某一label的所占的的比例,p1=3/5,p2=2/5
当数据集按照特征A的特征值a划分成两个独立的子数据集D1和D2时,此时整个数据集D的商为两个独立的数据集D1和D2的加权和权重为每个数据集占总数据集的比例:
这里的pk是指某label占划分后数据的比例
信息增益(information gain):
数据集D按照特征A划分后信息熵的减小值别成为信息增益。
Dp是根据数据集D按照特征A划分后形成的数据集p的样本个数
ID3决策树算法就是根据信息增益作为数据划分的依据
增益率(Gain ratio)
IV(A):特征A的”固有值”,计算方法如下
C4.5决策树算法使用增益率作为划分的标准
基尼系数(Gini index):
此时如果根据特征A划分成不同数据集Dp那么
在CART决策树算法中利用Gini系数作为划分的标准
阅读全文
0 0
- 决策树算法(一)-相关概念
- 决策树算法(一)
- 决策树的相关概念
- 决策树算法---概念
- 决策树(一)ID3算法
- 决策树算法(一)——一些重要的数学概念
- 决策树相关算法理解
- 机器学习--分类算法(一)决策树
- 分类算法(一)——决策树
- 决策树算法原理与实现(一)
- 机器学习方法:决策树(一):ID3算法
- 决策树算法理论部分(一)
- 决策树算法学习笔记(一)
- 机器学习算法系列(一)--决策树
- 机器学习算法(一)-决策树
- 机器学习算法-决策树(一)
- 决策树算法实现(一)
- 决策树与随机森林相关概念
- 发布到百度平台遇到的问题
- IntelliJ Idea 2017 免费激活方法
- AnimationDrawable资源的使用
- Android 热修复以及阿里AndFix方案使用
- 1031. Hello World for U (20)-PAT甲级真题
- 决策树算法(一)-相关概念
- 智能小车48:不用volatile,编译器会优化什么?
- 腾讯微博列表展示的功能实现
- ROS学习笔记 进不去目录 beginner_tutorials
- 如何解决fpga high fanout问题
- mysql explain执行计划详解
- OpenCV-Python-Tutorial[4]
- 使用memcache的方式存储session内容
- SIFT特征简介