机器学习笔记 - 决策树最优划分属性选择
来源:互联网 发布:万网域名解析 端口号 编辑:程序博客网 时间:2024/06/10 13:52
由决策树算法可知, 其关键点在于如何选择最优划分属性, 一般而言, 随着划分过程不断进行, 我们希望形成纯度高的分支节点和叶结点.
信息增益
信息熵可以用来衡量样本集合纯度. 假定 样本集合
熵越小, 则样本集合纯度越高, 以信息论的角度看, 也就是信息量越小.
假定离散属性
信息增益越大, 也就是使用属性
增益率
使用信息增益进行决策树划分, 会偏好可取值数目多的属性, 可能导致决策树泛化能力弱, 为了解决这个问题, 引入了增益率, 其定义如下:
这就是C4.5决策树学习算法.
基尼指数
数据集的纯度也可以用基尼指数来度量:
则属性
最优划分属性
这就是CART决策树算法
这里是一个简单的实现:
https://github.com/volvet/MLInAction/tree/master/DecisionTrees
Reference
- 机器学习 - 周志华 清华大学出版社
- Machine Learning in Action - Peter Harington
1 0
- 机器学习笔记 - 决策树最优划分属性选择
- 机器学习笔记(XI)决策树(I)基本流程和划分选择
- 机器学习笔记---决策树
- 机器学习笔记:决策树
- 【机器学习笔记】决策树
- 机器学习实战之决策树(2)---选择最好的特征来划分数据集
- 机器学习-决策树学习笔记
- 机器学习实战笔记:决策树
- 机器学习笔记_ 决策树
- 机器学习笔记(四)决策树
- 机器学习笔记十一:决策树
- 机器学习笔记(2)-决策树
- 机器学习实战笔记--决策树
- 机器学习实战笔记-决策树
- 机器学习实战-决策树笔记
- 机器学习笔记(2)-决策树
- 机器学习实战笔记-决策树
- 机器学习笔记二------决策树
- 求有向图的强连通分量(scc):Tarjan算法(转自http://www.cnblogs.com/shadowland/p/5872257.html)
- CCF之画图(java)
- 批处理自动打包升级包
- 2016.3 idea 注册码
- mysql的数据类型
- 机器学习笔记 - 决策树最优划分属性选择
- 内存对齐及不同编译环境下各种声明所占大小
- 5、SQL Server:sqlserver 日期与字符串之间的转换
- Rails如何让"已删除"的model对象不能被编辑(一)
- 彻底解决INSTALL_FAILED_UPDATE_INCOMPATIBLE的安装错误、安装包与之前设备上的安装包签名不一致
- 解决MySQL的Windows服务无法停止和删除的问题
- UVA140 - Bandwidth (暴力dfs+排列+剪枝)
- intellij 关闭自动保存和标志修改文件为星号
- IntelliJ Idea过期激活方法