决策树

来源：互联网发布：tcp 长连接 java 框架编辑：程序博客网时间：2024/06/05 21:00

ID3

设D为用类别对训练元组进行的划分，则D的熵（entropy）表示为：

$i n f o (D) = - \sum i = 1 n p i log p i (1)$

现在我们假设将训练元组D按属性A进行划分，则A对D划分的期望信息为：

$i n f o A (D) = \sum i = j v | D j | | D | i n f o (D j) (2)$

信息增益：

$g a i n (A) = i n f o (D) - i n f o A (D) (3)$

ID3算法就是在每次需要分裂时，计算每个属性的增益率，然后选择增益率最大的属性进行分裂。下面我们继续用SNS社区中不真实账号检测的例子说明如何使用ID3算法构造决策树。

这里写图片描述

其中s、m和l分别表示小、中和大。
设L、F、H和R表示日志密度、好友密度、是否使用真实头像和账号是否真实，下面计算各属性的信息增益：

i n f o (D) = - 0.7 * log 0.7 - 0.3 * log 0.7 = 0.879

i n f o L (D) = 0.3 * (- 1 3 * log 1 3 - 2 3 * log 2 3) + 0.3 * (- 1 * log 1 - 0 * log 0) + 0.4 * (- 3 4 * log 3 4 - 1 4 * log 1 4) = 0.603

g a i n L (D) = 0.879 - 0.603 = 0.276

因此日志密度的信息增益是0.276。
用同样方法得到H和F的信息增益分别为0.033和0.553。
因为F具有最大的信息增益，所以第一次分裂选择F为分裂属性。

ID3算法存在一个问题，就是偏向于多值属性，例如，如果存在唯一标识属性ID，则ID3会选择它作为分裂属性，这样虽然使得划分充分纯净，但这种划分对分类几乎毫无用处。ID3的后继算法C4.5使用增益率（gain ratio）的信息增益扩充，试图克服这个偏倚。

C4.5算法首先定义了“分裂信息”，其定义可以表示成：

s p l i t_i n f o A (D) = - \sum i = j v | D j | | D | l o g (| D j | | D |) (4)

其中各符号意义与ID3算法相同，然后，增益率被定义为：

g a i n_r a t i o (A) = g a i n ( A ) s p l i t _ i n f o ( D ) (5)

C4.5选择具有最大增益率的属性作为分裂属性，其具体应用与ID3类似，不再赘述。

CART算法采用一种二分递归分割的技术，将当前的样本集分为两个子样本集，使得生成的的每个非叶子节点都有两个分支。因此，CART算法生成的决策树是结构简洁的二叉树。

决策树分为分类决策树（目标变量为分类型数值）和回归决策树（目标变量为连续型变量）。分类决策树叶节点所含样本中，其输出变量的众数就是分类结果；回归树的叶节点所含样本中，其输出变量的平均值就是预测结果。

1)分类：基尼系数：

$G i n i (P) = \sum i = 1 n P i (1 - P i) = 1 - \sum i = 1 n P 2 i (6)$

现在我们假设将训练元组D按属性A进行划分，则A对D划分的基尼系数为：

$G i n i A (D) = \sum j = 1 2 | D j | | D | G i n i (D j) (7)$

2)回归：回归方差:

$σ = \sum i = 1 n (x i - u) 2 - - - - - - - - - - \sqrt = \sum i = 1 n x 2 i - u 2 - - - - - - - - - \sqrt (8)$
u是均值，方差越大，表示该节点的数据越分散，预测的效果就越差。

现在我们假设将训练元组D按属性A进行划分，则A对D划分的回归方差为：

$G a i n (D) = \sum j = 1 2 σ (D j) (9)$

看电视时间是否已婚职业年龄 3 否学生 12 4 否学生 18 2 是老师 26 5 是上班族 47 2.5 是上班族 36 3.5 否老师 29 4 是学生 21

以属性“职业”为例，一共有三个离散值，“学生”、“老师”、“上班族”。该属性有三种划分的方案，分别为{“学生”}、{“老师”、“上班族”}，{“老师”}、{“学生”、“上班族”}，{“上班族”}、{“学生”、“老师”}，分别计算三种划分方案的子节点GINI值或者样本方差，选择最优的划分方法

第一种划分方法：{“学生”}、{“老师”、“上班族”}：
预测是否已婚（分类），根据(7)：

G a i n = 3 7 * (1 - [(1 3) 2 + (2 3) 2]) + 4 7 * (1 - [(1 4) 2 + (3 4) 2]) = 0.4

预测年龄（回归），根据(9)：

G a i n = 122 + 182 + 212 - 3 * [(12 + 18 + 21) / 3] 2 - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - \sqrt + 262 + 472 + 362 + 292 - 4 * [(26 + 47 + 36 + 29) / 4] 2 - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - \sqrt = 34.71

运用相同的算法，求出下面的数据。
第二种划分方法：{“老师”}、{“学生”、“上班族”}：
预测是否已婚（分类），根据(7)：

G a i n = 0.49

预测年龄（回归），根据(9)：

G a i n = 16.36

第三种划分方法：{“上班族”}、{“学生”、“老师”}：
预测是否已婚（分类），根据(7)：

G a i n = 0.34

预测年龄（回归），根据(9)：

G a i n = 21.14

综上，如果想预测是否已婚，则选择{“上班族”}、{“学生”、“老师”}的划分方法，如果想预测年龄，则选择{“老师”}、{“学生”、“上班族”}的划分方法。

待续。。。。

阅读全文

0 0