决策树
来源:互联网 发布:网络销售聊天技巧 编辑:程序博客网 时间:2024/05/22 07:45
近期看了周志华的机器学习的决策树,为巩固学习及便于后期复习,所以写了这个简单总结:
本书主要讲述了ID3和C4.5算法,对于CART则只是有所提及。
这三种算法是基于采用的划分不同区分的,ID3采用信息增益,C4.5采用增益率,CART采用基尼指数。
一、信息增益---ID3算法
1.1 信息熵:度量样本集合纯度最常用的一种指标;
定义样本集合D的信息熵:
其中是样本集合D中第K类所占的比例。
假定离散属性a有V个可能的取值,则定义用属性a对样本集D进行划分所获得的信息增益是:
其中是通过属性a对样本集D进行划分产生的子集。
一般而言,信息增益越大,则使用属性a来进行划分所获得的“纯度提升”越大,因此可用其进行决策树的划分属性选择,即ID3算法。
二、增益率---C4.5算法
然而,使用信息增益作为选择属性的指标存在一个问题:其对可取值数目较多的属性有所偏好(例如将样本的编号也作为一个属性,则其信息增益会很大,因为每个编号对应一个样本,纯度已达最大,但这样做并没有意义)。为避免这种情况,C4.5算法在信息增益的基础上加入权重,得到增益率,以此来作为选择属性的指标。
增益率定义:
其中:
注:增益率准则对可取值数目较少的属性有所偏好,所以C4.5并不是直接选择增益率最大的候选划分属性,而是使用了一个启发式:先从候选划分属性中找出信息增益高于平均水平的属性,再从中选择增益率最高的。
三 基尼指数---CART算法
CART算法采用与ID3和C4.5不同的选择划分属性的指标---基尼指数。
数据集D的纯度用基尼值来度量:
基尼值反映了从数据集D中随机抽取两个样本,其类别标记不一致的概率。
属性a的基尼指数定义:
选择那些使得划分后基尼指数最小的属性作为最优划分属性。
0 0
- 决策树
- 决策树
- 决策树
- 决策树
- 决策树
- 决策树
- 决策树
- 决策树
- 决策树
- 决策树
- 决策树
- 决策树
- 决策树
- 决策树
- 决策树
- 决策树
- 决策树
- 决策树
- apple-mobile-web-app-status-bar-style
- Java中的异或操作
- VS 中的CodeMap插件许可过期
- 进程同步问题的几个案例
- git查看各个branch之间的关系图
- 决策树
- java中空接口的含义
- IPV6检测
- nginx(1.10.2)实现thinkPHP pathinfo和rewrite访问方式
- Android之文件断点续传
- MyISAM ,Innodb 引擎区别
- Face Detection using Haar Cascades
- 幡然醒悟系列之串行通信和串口通信
- Use of 'self' in property access '...' before self.init initializes self