机器学习笔记(10)决策树

来源:互联网 发布:c语言多个if else 编辑:程序博客网 时间:2024/05/16 05:20

引用:《西瓜书》

西瓜问题的一棵决策树

要点

其中叶节点对应于决策结果,其他各个节点对应于一个属性。
决策树的目的是为了生成一棵泛化能力强、即处理未见示例能力强的决策树。基本流程是分而治之。

这里写图片描述

划分选择

决策树一个递归过程
由上图可看出,决策树学习的关键是第8行,即如何选择最优划分属性。一般而言,随着划分过程不断进行,我们希望决策树的分支节点所包含的样本尽可能属于同一类别,即”节点”的纯度(purity)越来越高。

信息增益

信息熵
度量纯度的一种指标

H(x)=i=0n1p(xi)I(xi)=i=0n1p(xi)log(p(xi))

H越小,纯度越高

信息增益
此处略(挺复杂)

剪枝

结果过拟合问题

  • 预剪枝
  • 后剪枝
原创粉丝点击