决策树模型入门学习

来源:互联网 发布:sai软件免费下载 编辑:程序博客网 时间:2024/06/06 14:19

一:基本介绍
决策树模型就是为了求出一系列规则,按照规则划分数据,得到预测结果。可以把决策树看做有决策块和终止块组成,如下图:
 :
上图图是女孩对是否与男生见面的决策过程,典型的分类树决策。相当于通过年龄、长相、收入和是否公务员对将男人分为两个类别:见和不见。假设这个女孩对男人的要求是:30岁以下、长相中等以上并且是高收入者或中等以上收入的公务员,那么这个可以用下图表示女孩的决策逻辑。
二:为什么需要决策树
那么在处理数据问题中我们为什么会选用决策树模型?
下面介绍决策树的优点:
1、决策树易于理解和解释.人们在通过解释后都有能力去理解决策树所表达的意义。
2、 对于决策树,数据的准备往往是简单或者是不必要的.其他的技术往往要求先把数据一般化,比如去掉多余的或者空白的属性。
3、 能够同时处理数据型和常规型属性。其他的技术往往要求数据属性的单一。
4、 决策树是一个白盒模型。如果给定一个观察的模型,那么根据所产生的决策树很容易推出相应的逻辑表达式。
5、 易于通过静态测试来对模型进行评测。表示有可能测量该模型的可信度。
6、 在相对短的时间内能够对大型数据源做出可行且效果良好的结果。
7、 可以对有许多属性的数据集构造决策树。
8、决策树可很好地扩展到大型数据库中,同时它的大小独立于数据库的大小。
三、决策树建模过程及常用模型
决策树的工作过程一般可以分为三步:
1、特征选择
2、决策树生成
3、剪枝
下面结合具体的几个决策树模型来巩固掌握的知识:
1、ID3:
根据信息增益进行特征选择,这就涉及到信息熵的概念,信息熵描述的是数据的混乱程度,信息增益描述的加入特征后数据混乱程度的减小程度,所以信息增益的值等于信息熵减去条件熵的值。

每一步选择信息增益最大的特征作为决策块,最终生成决策树。
ID3模型没有剪枝部分。
2、C4.5
C4.5是对ID3的改进,ID3只可以处理标称型数据,没有剪枝过程容易过拟合。C4.5的特征选择依据信息增益率进行,
这里写图片描述
每次选择信息增益率最高的特征作为决策块。
C4.5的剪枝可以根据最小化损失函数策略进行。
3、cart树
cart(classification and regression tree)分类回归树,同样有特征选择、树的生成和剪枝。当cart为回归树时,特征选择按照最小化误差平方和进行,选择使误差平方和最小的特征作为切分点,以此规则不断生成树。当cart为分类树时,按照基尼指数进行特征选择,公式如下:
这里写图片描述
在树的生成过程中,在所有可能的特征A以及它们所有可能的切分点a中选择基尼系数最小的特征及其对应的切分点作为最优特征与最优切分点。
对于cart树的剪枝,cart剪枝算法从“完全生长”的决策树的底端减去一些子树,使决策树变小,从而能够对未知数据有更准确的预测。cart剪枝算法由两步组成:首先从生成算法产生的决策树底端开始不断剪枝,直到根节点,形成一个子树序列;然后通过交叉验证法在独立的验证数据集上对子树序列进行验证,从中选择最优子树。
四、决策树的不足
决策树的缺点:
1、 对于那些各类别样本数量不一致的数据,在决策树当中,信息增益的结果偏向于那些具有更多数值的特征。
2、决策树处理缺失数据时的困难。
3、过度拟合问题的出现。
4、忽略数据集中属性之间的相关性。

0 0
原创粉丝点击