机器学习笔记 - 决策树最优划分属性选择

来源：互联网发布：万网域名解析端口号编辑：程序博客网时间：2024/06/10 13:52

由决策树算法可知, 其关键点在于如何选择最优划分属性, 一般而言, 随着划分过程不断进行, 我们希望形成纯度高的分支节点和叶结点.

信息熵可以用来衡量样本集合纯度. 假定样本集合D, 其中第k类样本所占比例为pk(k=1,2,...,γ), 则D的熵为

E n t (D) = - \sum k = 1 γ p k l o g 2 p k

熵越小, 则样本集合纯度越高, 以信息论的角度看, 也就是信息量越小.

假定离散属性a有V个可能的取值 {a1,a2,...,av}, 使用a来对样本集合D进行划分, 产生V个分支节点. 其中第v个分支节点包含D中所有取值为av的样本, 记为Dv. 我们可以根据上面的公式计算Dv的信息熵, 于是可以计算用属性a划分的信息增益, 计算方法为:

G a i n (D, a) = E n t (D) - \sum v = 1 V | D v | | D | E n t (D v)

信息增益越大, 也就是使用属性

a划分所获得纯度提升越大, 因此我们可以用信息增益来决定决策树的划分属性. 这就是著名的ID3决策树学习算法(Iterative Dichotomiser 3).

使用信息增益进行决策树划分，会偏好可取值数目多的属性，可能导致决策树泛化能力弱，为了解决这个问题，引入了增益率, 其定义如下:

G a i n_r a t i o (D, a) = G a i n ( D , a ) I V ( a )

I V (a) = - \sum v = 1 V | D v | | D | l o g 2 | D v | | D |

这就是C4.5决策树学习算法.

数据集的纯度也可以用基尼指数来度量:

G i n i (D) = \sum k = 1 γ \sum r! = k p k p r = 1 - \sum k = 1 γ p 2 k

则属性

a划分后的基尼指数为

G i n i_i n d e x (D, a) = \sum v = 1 V G i n i (D v)

最优划分属性

a=argmin(Gini_index(D,a)),a∈A
这就是CART决策树算法

这里是一个简单的实现:
https://github.com/volvet/MLInAction/tree/master/DecisionTrees

1 0