决策树算法--python实现

来源:互联网 发布:王砚辉 知乎 编辑:程序博客网 时间:2024/05/29 09:31

定义:
信息增益:再划分数据之前之后信息发生的变化。
香浓熵(简称熵):集合信息的度量方式,熵是信息的期望值。

其实决策树主要就是选择最优划分属性对给定集合进行划分,随着花粉的不断进行,我们希望最终决策树所包含的样本尽量属于同一类别,即结点的“纯度”越来越高。

信息增益的计算:
1.信息熵的计算Ent(D)越小,纯度越高
2.信息增益:
Gain(D,a) = Ent(D) - 属性的信息熵
信息增益越大,则意味着使用属性a来进行划分所获得的“纯度提升越大”

3.Gain_ratio(D,a) = Gain(D,a)/IV(a)
IV(a)的计算

iv(a)称为属性a的固有值,a的取值数目越多(V越大),则IV(a)的值通常越大。
由式子可见,增益率准则对可取值数目较少的属性有所偏好,故算法并非直接选择增益率最大的候选属性来进行划分。他使用的是一个启发式,从候选划分属性中找出信息增益高于平均水平的属性,再从中选取增益率最高的。