【机器学习读书笔记】决策树

来源:互联网 发布:亚马逊云计算培训 编辑:程序博客网 时间:2024/05/19 16:23

【机器学习读书笔记】决策树

二、决策树

决策树也属于监督学习里面的分类算法。书中介绍的算法是ID3,比较流行的还有C4.5、CART。决策树也是最长使用的数据挖掘的算法。

决策树分类器就像带有终止块的流程图,终止块表示分类结果。开始处理数据集时,首先需要测量数据集中的不一致性,也就是熵,然后寻找最优方案划分数据集,然后寻找最优方案划分数据集,直到数据集中的所有数据处于同一分类。

算法思路

  • 决策树充分利用数据里面的原有信息和特征。对经过训练的分类器可以持久化存储。
  • 决策树的关键在于决策树的构建。决策树中分为两种节点decision nodeleaf node。decision node对应的是feature即数据特征,在该节点的下面的分支对应的是该特征的所有取值。注意,这里的特征并不仅仅是有或者没有,他可能会有多个取值,每一个取值对一个分支。
  • 。每个问题中会有多个特征,决策树按照特征构建decision node,最终会到leaf node。而leaf node就是测试数据的最终分类标签。那么有这么多个特征,最初的decision node应该选哪个那?我们使用来解决这个问题。香农熵解释为表示数据中信息量。同时他也表征了数据的无序程度。越是无序的数据,熵越大。对于训练数据,假如我们使用某个特征进行分类,分类后可以分别计算出每个类别的熵,然后按照该类别出现的概率计算出该分类方法的熵的总和。定义信息增益=分类前的熵 - 分类后的熵 信息增益越大则该分类更好。遍历所有的特征,选出信息增益最大的最为第一个分类标准。之后去掉该特征,在剩余特征中递归的选出使得信息增益最大的特征。
  • Leaf Node。叶节点表示最终的数据分类结果。第一种情况,所有数据的标签全部相同,则返回该标签为最终结果。第二种情况,当使用完所有的特征后,如果数据集仍不能划分成唯一类别的分组,那么就选择出现次数最多的作为返回值。

优点 vs 缺点

  • 优点。不想k-邻近算法中每次都需要重新学习,计算量非常大。决策树可以事先进行学习,决策树的构建需要些时间,但是每次决策只需要很短的时间。

  • 缺点。匹配项过多造成过多的数据集划分,可能会造成过度匹配的问题(overfitting)。解决办法是通过裁剪决策树,合并相邻的无法产生大量信息增益的叶节点;无法处理数值型的数据。

TIPS

  • 标称型:标称型目标变量的结果只在有限目标集中取值
  • 数值型:数值型目标变量的结果可以从无限数值集合中取值,例如0.100,0.400(主要用于回归分析)
阅读全文
0 0
原创粉丝点击