【机器学习读书笔记】决策树

来源：互联网发布：亚马逊云计算培训编辑：程序博客网时间：2024/05/19 16:23

【机器学习读书笔记】决策树

二、决策树

决策树也属于监督学习里面的分类算法。书中介绍的算法是ID3，比较流行的还有C4.5、CART。决策树也是最长使用的数据挖掘的算法。

决策树分类器就像带有终止块的流程图，终止块表示分类结果。开始处理数据集时，首先需要测量数据集中的不一致性，也就是熵，然后寻找最优方案划分数据集，然后寻找最优方案划分数据集，直到数据集中的所有数据处于同一分类。

算法思路

决策树充分利用数据里面的原有信息和特征。对经过训练的分类器可以持久化存储。
决策树的关键在于决策树的构建。决策树中分为两种节点decision node 和 leaf node。decision node对应的是feature即数据特征，在该节点的下面的分支对应的是该特征的所有取值。注意，这里的特征并不仅仅是有或者没有，他可能会有多个取值，每一个取值对一个分支。
熵。每个问题中会有多个特征，决策树按照特征构建decision node，最终会到leaf node。而leaf node就是测试数据的最终分类标签。那么有这么多个特征，最初的decision node应该选哪个那？我们使用熵来解决这个问题。香农熵解释为表示数据中信息量。同时他也表征了数据的无序程度。越是无序的数据，熵越大。对于训练数据，假如我们使用某个特征进行分类，分类后可以分别计算出每个类别的熵，然后按照该类别出现的概率计算出该分类方法的熵的总和。定义信息增益=分类前的熵 - 分类后的熵 信息增益越大则该分类更好。遍历所有的特征，选出信息增益最大的最为第一个分类标准。之后去掉该特征，在剩余特征中递归的选出使得信息增益最大的特征。
Leaf Node。叶节点表示最终的数据分类结果。第一种情况，所有数据的标签全部相同，则返回该标签为最终结果。第二种情况，当使用完所有的特征后，如果数据集仍不能划分成唯一类别的分组，那么就选择出现次数最多的作为返回值。

优点 vs 缺点

优点。不想k-邻近算法中每次都需要重新学习，计算量非常大。决策树可以事先进行学习，决策树的构建需要些时间，但是每次决策只需要很短的时间。
缺点。匹配项过多造成过多的数据集划分，可能会造成过度匹配的问题（overfitting）。解决办法是通过裁剪决策树，合并相邻的无法产生大量信息增益的叶节点；无法处理数值型的数据。

TIPS

标称型：标称型目标变量的结果只在有限目标集中取值
数值型：数值型目标变量的结果可以从无限数值集合中取值，例如0.100，0.400（主要用于回归分析）

阅读全文

0 0