机器学习笔记（XI）决策树(I)基本流程和划分选择

来源：互联网发布：投资返利源码编辑：程序博客网时间：2024/06/05 11:50

基本流程

决策树

一般的，一棵决策树包括包含一个根结点，若干个内部结点和若干个叶结点。

根结点

包括样本全集
从根结点到每个叶子结点的路径对应一个判定测试序列。

内部结点

一个测试属性

叶结点

决策结果

目的

产生一棵泛化能力强的，处理未预见示例能力强的决策树，基本流程遵循简单且直观“分而治之”(divide-and-conquer)

基本算法

这里写图片描述

算法中的三种递归返回（三个return）

1：当前结点包含的样本全属于同一类别，无需再划分
2：当前属性集为空，或是所有样本在所有属性取值相同，无法划分。（此时：把当前结点标记为叶子节点，将其类别设定为该结点所含样本最多的类别，利用当前结点后验分布）
3：当前结点包含样本集合为空，不能划分（此时：同样把当前结点标记为叶子结点，但是其类别是父结点所含样本最多的类别，把父结点的样本分布作为当前结点的先验分布）

划分选择

信息增益

信息熵(information entropy)

作用：度量样本集合纯度的最常用的一种指标
假定当前样本集合D中第k类样本所占的比例为pk(k=1,2,…,|Y|)，则D的信息熵定义为

E n t (D) = - \sum k = 1 | Y | p k log 2 p k (entropy)

Ent(D)⇓, 纯度(

purity)

⇑

信息增益

假定离散属性a有V个可能的取值{a1,a2,…,aV},如果使用a来对样本集D进行划分，则会产生V个分支结点，其中第v个分支结点包含了D中所有在属性a上取值为av的样本，记为Dv。
计算Dv的信息熵，考虑到不同结点的样本数不同，给分支结点赋予权重|Dv||D|即样本数越多的分支结点的影响越大。
定义信息增益：

G a i n (D, a) = E n t (D) - \sum k = 1 | Y | | D v | | D | E n t (D v)

作用

一般而言，信息增益越大，则意味着使用属性a来划分所得到的”纯度提升”越大。

不同的算法，不同的a∗

ID3

a * = arg max a \in A G a i n (D, a)

C4.5

增益率

G a i n_r a t i o (D, a) = G a i n ( D , a ) I V ( a )

其中

I V (a) = - \sum v = 1 V | D v | | D | log 2 | D v | | D |

决策方法

从候选划分属性中找出信息增益高于平均水平的属性，再从中选择增益率最高的。

CART

基尼指数

基尼值Gini(D)

G i n i (D) = \sum k = 1 | Y | \sum k' \neq k p k p k' = 1 - \sum k = 1 | Y | p 2 k

Gini(D)反映了从数据集

D中随机抽取两个样本，其类别标记不一致的概率,因此

Gini(D)越小，数据集

D的纯度越高

基尼指数

G i n i_i n d e x (D, a) = \sum v = 1 V | D v | | D | G i n i (D v)

决策方法

a * = arg min a \in A G i n i_i n d e x (D, a)

阅读全文

0 0