决策树算法

来源:互联网 发布:佐伯俊男 不倒翁 知乎 编辑:程序博客网 时间:2024/06/03 20:13

决策树的思想:就是寻找最纯净的划分方法。

  1. 纯度的另一面就是不纯度。不纯度的选取有很多种方法,每种方法形成了不同的决策树算法。
  2. ID3算法使用了信息增益 作为不纯度
    C4.5算法使用了信息增益率作为不纯度。
    CART算法使用了基尼系数作为不纯度(分类的枝叶只有两个,形成了二叉树)
    决策树要达到最纯净的划分的目标要干两件事,建树和剪枝。

这里写图片描述

上图是 根据14条记录,分析是否买电脑的事件。

1.假设不按任何属性划分,分析原始数据的信息熵 : info(D)
买电脑的有 9个,不买的有 5个
所以info(D) :
这里写图片描述

2.按照年龄划分,
youth 有5个 ,买的有2个 不买的有3个
middle_aged 有4个,买的有4个 ,不买的有0个
senior 有5个,买的有3个,不买的有2个

所以
这里写图片描述

所以 age 的信息获取量是:
这里写图片描述

这里写图片描述

这里写图片描述

总结:
这里写图片描述

原创粉丝点击