统计学习-决策树
来源:互联网 发布:win10怎么安装sql 编辑:程序博客网 时间:2024/06/05 04:10
决策树(decision tree)是一种基本的分类和回归方法。
主要优点:模型具有可读性(直观),分类速度快。
决策树学习通常包含三个步骤,特征选择,决策树的生成和决策树的剪枝。经典的决策树算法包括:Quinlan在1986年提出的ID3算法,1993年提出的C4.5算法以及由Breiman等人在1984年提出的CART算法。
决策树的模型
分类决策树模型是一种描述对实例进行分类的树形结构。用决策树分类,从根节点出发,对实例的某一个特征进行测试,根据测试结果将实例分配到其子节点,递归进行直至到某叶子节点,最后将实例分到叶子节点的类中。下图就是一个依据天气进行来判断是否playing的决策树:
特征选择
通常特征选择的准则是信息增益或者信息增益比。
信息增益:
在信息论与概率统计中,熵(entropy)是表示随机变量不确定性的度量。设
则随机变量
1.熵越大,随机变量的不确定性越大;
2.理论上当随机变量是均匀分布时不确定性最大,对应的信息熵
下图是二元信息熵的分布图:
1.信息熵
2.当
3.当
经验熵:
经验条件熵:
信息增益:
下表是一个贷款申请的样本数据,分别求出经验熵和经验条件熵,从而确定根节点处的特征:
经验熵
经验条件熵:
故
同理可以计算:
对比发现有自己的房子的信息增益最大,故在根节点处将选择“是否有自己的房子”作为选择特征。
信息增益比
以信息增益作为划分训练数据集的特征,存在偏向于选择取值较多的特征的问题,使用信息增益比(information gain ratio)可以对这一个问题进行矫正。定义如下:
其中
决策树的生成
1.ID3 算法
ID 3算法只有树的生成,所以该算法生成的树容易过拟合。
2.C4.5算法只是在ID3的基础上,用信息增益比进行特征选择;
决策树的剪枝
决策树生成算法通过递归地产生决策树,直到不能继续下去为止。这样产生的树的容易出现过拟合的现象,导致训练模型泛化能力不足,我们可以通过剪枝(pruning)简化模型,提高其泛化能力。
而决策树的剪枝往往通过极小化决策树整体损失函数来实现,所以我们
首先需要定义决策树的整体损失函数:
设树T的叶子节点个数
前者表示模型对训练数据的预测误差,即模型和与训练数据的拟合程度(假设某一个叶子节点对应的样本点都是同一类,那么该叶子节点对应的
输入:生成算法产生的整个树T,参数α输出:修剪后的子树1.计算每个节点的经验熵2.递归地从叶子节点向上回溯设一组叶子节点回缩到其父节点之前与之后的整体树分别为TA和TB,计算对应的损失函数值,如果剪枝后使得损失函数值减小,说明该剪枝是有效的。
其他剪枝方法比如:Reduced-Error Pruning(REP,错误率降低剪枝)
和Pessimistic Error Pruning(PEP,悲观剪枝)
可以参考该文。
CART生成(classification and regression tree)
决策树的生成就是递归地构建二叉决策树的过程。对回归树用平方误差最小化准则,对分类树用基尼指数(Gini index)最小化准则,进行特征选择,生成二叉树。
1.回归树的生成
假设
回归树的模型:
其中输入空间由
其中
2.分类树的生成
基尼指数:分类问题中,假设有K个类,样本点属于第k类的概率为
- 统计学习-决策树
- 统计学习笔记(五)决策树
- 《统计学习方法》第五章决策树学习笔记
- 统计学习方法学习笔记《五》——决策树
- 李航《统计机器学习》第5章 决策树
- [统计学习方法]决策树
- 复习统计学习方法-决策树
- 统计学习方法----决策树
- 统计学习方法--决策树
- 统计学习方法《决策树》
- 统计学习方法:决策树
- 统计学习方法笔记:决策树
- 统计学习方法 5-决策树
- 决策树学习
- 决策树学习
- 决策树学习
- 决策树学习
- 决策树学习
- background-origin 学习
- R语言在ubuntu下的编译安装
- HDU 4638Group 树状数组离线
- Redis之(四)事务
- spring
- 统计学习-决策树
- 删除链表重复节点-java
- OpenCV Source
- 渲染世界的OPENGL<15>纹理进阶-点精灵
- python正则表达式 学习记要
- 怎么在 unity 里鼠标旋转一个物体
- Codeforces #374(Div.2)A. One-dimensional Japanese Crossword【模拟】水题
- Sublime text 3 安装pylinter的错误提示
- webstom安装地址及快捷键