决策树算法(一)-相关概念

来源:互联网 发布:广州拓飞涉密数据恢复 编辑:程序博客网 时间:2024/05/19 23:18

Entroy(D)数据集D的信息熵:

信息熵

k为数据集D的类别数,比如五个数据集他们的label三个为yes,两个为no,那么k=2;

pk为某一label的所占的的比例,p1=3/5,p2=2/5

当数据集按照特征A的特征值a划分成两个独立的子数据集D1和D2时,此时整个数据集D的商为两个独立的数据集D1和D2的加权和权重为每个数据集占总数据集的比例:

信息熵
这里的pk是指某label占划分后数据的比例

信息增益(information gain):

数据集D按照特征A划分后信息熵的减小值别成为信息增益。

信息增益

Dp是根据数据集D按照特征A划分后形成的数据集p的样本个数

ID3决策树算法就是根据信息增益作为数据划分的依据

增益率(Gain ratio)

增益率

IV(A):特征A的”固有值”,计算方法如下

IV

C4.5决策树算法使用增益率作为划分的标准

基尼系数(Gini index):

这里写图片描述

此时如果根据特征A划分成不同数据集Dp那么

这里写图片描述

在CART决策树算法中利用Gini系数作为划分的标准

原创粉丝点击