【机器学习读书笔记】决策树
来源:互联网 发布:亚马逊云计算培训 编辑:程序博客网 时间:2024/05/19 16:23
【机器学习读书笔记】决策树
二、决策树
决策树也属于
监督学习
里面的分类算法
。书中介绍的算法是ID3,比较流行的还有C4.5、CART。决策树也是最长使用的数据挖掘的算法。决策树分类器就像带有终止块的流程图,终止块表示分类结果。开始处理数据集时,首先需要测量数据集中的不一致性,也就是熵,然后寻找最优方案划分数据集,然后寻找最优方案划分数据集,直到数据集中的所有数据处于同一分类。
算法思路
- 决策树充分利用数据里面的原有信息和特征。对经过训练的分类器可以持久化存储。
- 决策树的关键在于
决策树的构建
。决策树中分为两种节点decision node
和leaf node
。decision node对应的是feature
即数据特征,在该节点的下面的分支对应的是该特征的所有取值。注意,这里的特征并不仅仅是有或者没有,他可能会有多个取值,每一个取值对一个分支。 熵
。每个问题中会有多个特征,决策树按照特征构建decision node,最终会到leaf node。而leaf node就是测试数据的最终分类标签。那么有这么多个特征,最初的decision node应该选哪个那?我们使用熵
来解决这个问题。香农熵
解释为表示数据中信息量。同时他也表征了数据的无序程度。越是无序的数据,熵越大。对于训练数据,假如我们使用某个特征进行分类,分类后可以分别计算出每个类别的熵,然后按照该类别出现的概率计算出该分类方法的熵的总和。定义信息增益=分类前的熵 - 分类后的熵
信息增益越大则该分类更好。遍历所有的特征,选出信息增益最大的最为第一个分类标准。之后去掉该特征,在剩余特征中递归的选出使得信息增益最大的特征。Leaf Node
。叶节点表示最终的数据分类结果。第一种情况,所有数据的标签全部相同,则返回该标签为最终结果。第二种情况,当使用完所有的特征后,如果数据集仍不能划分成唯一类别的分组,那么就选择出现次数最多的作为返回值。
优点 vs 缺点
优点。不想k-邻近算法中每次都需要重新学习,计算量非常大。决策树可以事先进行学习,决策树的构建需要些时间,但是每次决策只需要很短的时间。
缺点。匹配项过多造成过多的数据集划分,可能会造成过度匹配的问题(overfitting)。解决办法是通过裁剪决策树,合并相邻的无法产生大量信息增益的叶节点;无法处理数值型的数据。
TIPS
标称型
:标称型目标变量的结果只在有限目标集中取值数值型
:数值型目标变量的结果可以从无限数值集合中取值,例如0.100,0.400(主要用于回归分析)
阅读全文
0 0
- 【机器学习读书笔记】决策树
- 机器学习实战读书笔记-决策树
- 《机器学习》读书笔记,第三章决策树学习
- 【读书笔记】机器学习实战-决策树(1)
- 【读书笔记】机器学习实战-决策树(2)
- 【读书笔记】机器学习实战-第三章 决策树
- 读书笔记《机器学习》: 第四章:决策树
- [Mitchell 机器学习读书笔记]——决策树学习
- 《机器学习实战》读书笔记 第三章 决策树(part 1)
- 《机器学习实战》读书笔记 第三章 决策树(part 3)
- 机器学习实战-第三章决策树-代码理解-读书笔记
- 《机器学习实战》读书笔记4:决策树源码分析
- 机器学习实战---读书笔记: 第3章 决策树
- 读书笔记:机器学习实战【第3章 决策树】
- 机器学习(周志华)读书笔记-(四)决策树
- 《机器学习》读书笔记 6 第4章 决策树
- 机器学习实战第三章——决策树,读书笔记
- 机器学习实战——决策树(读书笔记)
- caffe训练过程中显示Check failed:error == cudaSuccess(2 vs. 0) out of memory
- 最新版互联网云脑架构图发布,解读云机器人、人工智能,物联网等19个前沿科技
- spring解决中文乱码问题
- 如何修改固定了格式的WPS表格
- 软件测试学习笔记(2):软件测试的分类
- 【机器学习读书笔记】决策树
- simple_graph_execution_state
- jQuery基本选择器
- 如何排除jar包冲突
- android_无序广播
- 软件缺陷度量
- 慕课的Spring课程
- IDEA如何解决WARN No appenders could be found for logger
- ubuntu opencv3.2安装测试