决策树
来源:互联网 发布:js amd cmd规范 编辑:程序博客网 时间:2024/06/05 05:21
统计学习方法 李航 第五章
决策树学习通常包括3个步骤:特征选取、决策树生成和决策树的修剪。
特征选取
(1)信息增益:熵与条件熵的差值
熵:表示随机变量的不确定性。
条件熵:在一个条件下,随机变量的不确定性。
信息增益:在一个条件下,信息不确定性减少的程度!
(2)信息增益比:条件熵和熵的比值
决策树的生成
生成算法:ID3、C4.5(对已知数据分类准确,对未知数据预测却不那么明确,所以要剪枝)
(1)ID3:在决策树的各个节点上应用信息增益准则选择特征,递归的构建决策树,当节点包含的数据记录都属于同一个类别时就可以终止分裂了。。
只有树的生成,生成的树容易过拟合
(2)C4.5:在决策树的各个节点上应用信息增益比准则选择特征,递归的构建决策树,当节点包含的数据记录都属于同一个类别时就可以终止分裂了。
只有树的生成,生成的树容易过拟合
决策树的剪枝
通过极小化决策树整体的损失函数或代价函数来实现
决策树是充分考虑了所有的数据点而生成的复杂树,有可能出现过拟合的情况,决策树越复杂,过拟合的程度会越高。
考虑极端的情况,如果我们令所有的叶子节点都只含有一个数据点,那么我们能够保证所有的训练数据都能准确分类,但是很有可能得到高的预测误差,原因是将训练数据中所有的噪声数据都”准确划分”了,强化了噪声数据的作用。
剪枝修剪分裂前后分类误差相差不大的子树,能够降低决策树的复杂度,降低过拟合出现的概率。
两种方案:前剪枝和后剪枝
CART算法
CART(分类与回归树)是决策树学习方法。给定岁间变量X条件下输出随机变量Y的田间概率分布的学习方法。
推荐一篇相关的文章:http://blog.csdn.net/tianguokaka/article/details/9018933#t0
http://blog.csdn.net/tianguokaka/article/details/9018933?locationNum=2&fps=1
- 决策树
- 决策树
- 决策树
- 决策树
- 决策树
- 决策树
- 决策树
- 决策树
- 决策树
- 决策树
- 决策树
- 决策树
- 决策树
- 决策树
- 决策树
- 决策树
- 决策树
- 决策树
- react-native-router-flux 使用详解(一)
- Head First设计模式学习笔记-------(4.1)工厂模式
- (ssl1458)数字金字塔(三角形)顺推一个数组法(好长的名字Σ( ° △ °|||)︴)
- ftp上传文件
- c++拉普拉斯锐化
- 决策树
- [java数据结构]--java双向链表LinkedList的简单实现
- Python描述器引导(翻译)
- eclipse 中 svn 更新与同步资源库
- Ext.js 面向对象特性
- 数组打乱排序
- 块元素内的浮动元素超过总高度,下面的块元素位置
- 2017年2月28日手记---bootstrap日期选择器
- bzoj 3786: 星系探索 dfs序+splay