<机器学习>---决策树---补充

来源:互联网 发布:vscode markdown 预览 编辑:程序博客网 时间:2024/06/07 00:38

本篇是在李航老师的《统计学习方法》的决策树基础上补充周志华老师的《机器学习》西瓜书的一点内容。

1.连续值处理:

当特征属性可取连续值的时候,就出现这个问题了。比如西瓜的含糖率,密度值这样的特征属性。

但其实,我们可以获取的样本,他们在连续属性上的取值都只是一个确定的值了。因此, 假定17样本,就会有17个(或者小于17,因为可能取值相同了,这里就假使17个不同的a特征的取值),按照取值从小到大的顺序排序: a1 a2 a3 ......a17 。        序列中间有16个间隔,每个间隔取一个值,这个值是两相邻值的平均值,例:a1 a2 之间取一个均值a12, a12作为a1 a2 的间隔值。依次类推,可得到16个新的a的特征取值,把这16个值作为a特征的所有可能取值,就可以和之前的离散特征取值一样生成决策树了。











2.对缺失值的处理:

缺失值是表示,获取的训练样本,的一些特征下的具体取值未知。如:


补救方法:




以色泽为例,为17 -3=14(即色泽那一列没有“—”的样本个数)

然后计算规则如下:








然后,处理缺失的特征值怎么归类:


一般wx是初始化为1的。



wx*rv 





多变量决策树。。。。没太看懂,明白后再来补充。。。欢迎指正!