决策树算法--python实现

来源：互联网发布：王砚辉知乎编辑：程序博客网时间：2024/05/29 09:31

定义：
信息增益：再划分数据之前之后信息发生的变化。
香浓熵（简称熵）：集合信息的度量方式，熵是信息的期望值。

其实决策树主要就是选择最优划分属性对给定集合进行划分，随着花粉的不断进行，我们希望最终决策树所包含的样本尽量属于同一类别，即结点的“纯度”越来越高。

信息增益的计算：
1.信息熵的计算Ent(D)越小，纯度越高
2.信息增益：
Gain(D,a) = Ent(D) - 属性的信息熵
信息增益越大，则意味着使用属性a来进行划分所获得的“纯度提升越大”

3.Gain_ratio(D,a) = Gain(D,a)/IV(a)
IV（a）的计算

iv（a）称为属性a的固有值，a的取值数目越多（V越大），则IV（a）的值通常越大。
由式子可见，增益率准则对可取值数目较少的属性有所偏好，故算法并非直接选择增益率最大的候选属性来进行划分。他使用的是一个启发式，从候选划分属性中找出信息增益高于平均水平的属性，再从中选取增益率最高的。

阅读全文

0 0