决策树算法简介
来源:互联网 发布:js如何获取父节点 编辑:程序博客网 时间:2024/04/25 05:06
决策树(decision tree)
一、背景知识
符号xi的信息量:
L(xi) = - log2p(xi)
熵:
H = -∑p(xi)log2p(xi)
信息增益:
特征A对训练数据集D的信息增益g(D,A)= H(D) - H(D|A)
其中,定义集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差
优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据。
缺点:可能产生过度匹配问题,连续变量处理效果不好。
适用数据类型:数值型和标称型。
三、基本算法——ID3算法
决策树类似于流程图的树结构:
每个内部节点表示在一个属性上的测试
每个分支表示一个属性输出
树叶节点表示类或类分布
树的最顶层是根节点
算法:
寻找划分数据集的最好特征,划分数据集,创建分支点
对于划分的子集,递归上步
递归终止条件:所有子项属同一类或用完所有特征(使用多数表决分类)
四、优化
构造决策树很耗时:
→将分类器存储在硬盘上,使用Python中的pickle模块
处理连续性变量的属性:
→离散化
避免overfitting:
→先剪枝、后剪枝
五、算法比较
C4.5(gain ratio)
CART(gain index)
ID3(信息增益)
异:属性选择度量方法不同
同:都是贪心算法,自上而下
六、实现代码地址
https://code.csdn.net/snippets/2602934.git
阅读全文
0 0
- 决策树算法简介
- 数据挖掘决策树分类算法简介
- 分类决策树简介及ID3算法实现
- 使用ID3算法构造决策树 - 简介、概念及实例
- 机器学习之决策树——ID3算法简介
- 决策树算法
- 决策树算法
- 决策树算法
- 决策树算法
- 决策树算法
- 决策树算法
- 决策树算法
- 决策树算法
- 决策树算法
- 决策树算法
- 决策树算法
- 决策树算法
- 决策树算法
- [博客搬迁]本博客搬迁至Hexo独立博客+Coding Pages
- mvc 利用form表单文件上传
- 简单bfs集锦
- Android视频播放器
- UE4蓝图节点翻译---Add Pawn Sensing Component
- 决策树算法简介
- 油腻代码大叔与蝴蝶效应
- Linux部署dubbo流程介绍
- 一个PHP文件搞定支付宝系列之手机网站支付(兼容微信浏览器)
- 58. Length of Last Word
- 7.3 计算两整数的最大值,
- Hadoop源码分析:FileSystem类
- [leetcode] 687. Longest Univalue Path
- 分布式系统的十二个目标