机器学习笔记_ch4_分类算法
来源:互联网 发布:俄罗斯套娃动作数据 编辑:程序博客网 时间:2024/06/03 10:40
- 1Prerequisite Knowledge
- 2解决分类问题的一般方法
- 3决策树归纳Decision Tree
- 1决策树的工作原理
- 2如何建立决策树
- 21Hunt算法
- 22决策树归纳的设计问题
- 3表示属性测试条件的方法
- 4选择最佳划分的度量
- 5决策树归纳算法
- 6例子Web机器人检测
- 7决策树归纳的特点
- 4模型的过分拟合
- 1噪声导致的过分拟合
- 2缺乏代表性样本导致的过分拟合
- 3过分拟合与多重比较过程
- 4泛化误差估计
- 5处理决策树归纳中的过分拟合
- 5评估分类器的性能
- 1保持方法
- 2随机二次抽样
- 3交叉验证cross-validation
- 自助法
- 6比较分类器的方法
- 1估计准确度的置信区间
- 2比较两个模型的性能
- 3比较两种分类法的性能
分类任务就是确定对象属于哪个预定义的目标类。
- 介绍分类的基本概念
- 讨论诸如模型过分拟合的问题
- 评估和比较分类性能的方法
1Prerequisite Knowledge
分类任务的输入数据是记录的集合,用元组表示
区分分类和回归的关键特征:目标属性是离散的还是连续的
- 分类:分类任务就是通过学习得到一个目标函数f,把每个属性x映射到一个预先定义的类标号y
目标:
描述性建模:作为解释性工具用于区分不同类中的对象
预测性建模:分类模型还可以用于预测未知记录的类标号
非常适用于预测和描述二元或标称类型的数据集。
2解决分类问题的一般方法
一种根据输入数据集建立分类模型的系统方法
+ 典型方法
+ 决策树分类法
+ 基于规则的分类法
+ 神经网络
+ SVM
+ Navie Bayes Classification
共同点:使用一种学习算法确定分类模型,很好地拟合输入数据中类标号和属性集之间的联系/, 是一种很好的泛化能力模型。
评估方式
混淆矩阵:提供衡量分类模型性能的信息
性能度量:准确率,错误率
3决策树归纳Decision Tree
3.1决策树的工作原理
一系列问题和这些问题的可能回答可以组织成决策树的形式,决策树是一种由结点和有向边组成的层次结构。
三种结点
- 根节点
- 内部节点
- 叶节点:赋予一个类标号
3.2如何建立决策树
由于:搜索空间是指数规模的,找出最佳是不可行的
解决:采用贪心算法,采取一系列局部最优决策来构造决策树
3.2.1Hunt算法
属性测试条件attribute test condition
+ 1.Dt数据在一个目标属性:定位叶节点
+ 2.Dt数据在不同目标属性,分裂划分
+ 附加条件来简化决策
+ 第二步所创建的子女节点可以为空。
+ 如果与Dt相关联的所有记录都具有相同的属性值(目标属性除外),则不再进一步划分,以majority作为标号
3.2.2决策树归纳的设计问题
- 如何分类训练记录?属性测试条件的选择
- 如何停止分裂过程?
3.3表示属性测试条件的方法
为不同类型的属性提供表示属性测试条件和其对应的输出
+ 二元属性
+ 标称属性:多路划分
+ 序数属性
+ 连续属性
3.4选择最佳划分的度量
有很多度量可以用来确定划分记录的最佳方法,这些度量 用划分前和划分后记录的类分布定义。
选择最佳划分的度量通常是根据划分后子女节点的不纯度的程度。
- Entropy
- Gini
- C lassification error
比较划分前的不纯程度和子女结点的不纯程度,期望获得最大化的增益:
- 1二元属性的划分
- 2标称属性的划分
- 3连续属性的划分
- 4增益率
3.5决策树归纳算法
- 输入:训练记录集E和属性集F
- 精髓:递归地选择最优的属性来划分数据,并扩展叶结点
- 建立决策树之后可以进行树剪枝,以减小决策树的规模。
3.6例子:Web机器人检测
Web使用挖掘 是使用数据挖掘的技术,从web访问日志中提取有用的模式。
区分:用户访问和web机器人访问
3.7决策树归纳的特点
- 1决策树归纳是一种构建分类模型的非参数方法
- 2 找到最佳的决策树是NP完全问题
- 决策边界:属性测试条件是涉及单个属性
- 斜决策树:oblique decision tree,允许测试条件涉及多个属性
4模型的过分拟合
- 训练误差training error
- 泛化误差generalization error
过分拟合和拟合不足是两种与模型复杂度有关的异常现象
4.1噪声导致的过分拟合
训练记录被错误的标记
4.2缺乏代表性样本导致的过分拟合
根据少量训练数据做出分类决策的模型,很可能做出错误的预测
4.3过分拟合与多重比较过程
大量的候选属性和少量的训练记录最后导致了模型的过分拟合
4.4泛化误差估计
模型的复杂度对模型的过分拟合有影响:如何确定正确的模型复杂度?理想的复杂度是能产生最低泛化误差的模型的复杂度。
- 1.使用再代入估计:假设训练数据集可以很好地代表整体数据,因而使用训练误差提供对泛化误差的乐观估计。
- 2.结合模型复杂度
模型越复杂,出现过拟合的几率就越高。采用更简单的模型:
- 奥卡姆剃刀Occam’s razor:给定两个具有相同泛化误差的模型,较简单的模型比较复杂的模型更可取。
- 训练误差 - 模型复杂度惩罚项penalty term:对于二叉树来说,0.5的惩罚项意味着只要至少能够改善一个训练记录的分类,结点就应该扩展。 - 最小描述长度原则minimum description length: - 估计统计上界:泛化误差可以用训练误差的统计修正来估计。 训练误差的上界 - 使用确认集- 节俭原则principle of parsimony
4.5处理决策树归纳中的过分拟合
- 先剪枝(提前终止规则)
- 后剪枝:按照自底向上的方式修剪完全增长的决策树。
5评估分类器的性能
模型选择Model Selection:估计误差有助于学习算法进行模型选择。
5.1保持方法
将被标记的原始数据划分成两个不相交的集合,分别称为训练及和检验集。
在训练数据集上归纳分类模型,在检验集上评估模型的性能。
5.2随机二次抽样
可以多次重复保持方法来改进对分类器性能的估计
5.3交叉验证cross-validation
每个训练样本数据都用于检验,且恰好一次。
自助法
有放回的抽样法
6比较分类器的方法
依据数据集的大小,两个分类器准确率上的差异可能不是统计显著的。
6.1估计准确度的置信区间
6.2比较两个模型的性能
6.3比较两种分类法的性能
- 机器学习笔记_ch4_分类算法
- 机器学习算法分类
- 机器学习算法分类
- 机器学习算法分类
- 机器学习:分类算法
- 机器学习算法分类
- R语言与机器学习学习笔记(分类算法)
- R语言与机器学习学习笔记(分类算法)
- R语言与机器学习学习笔记(分类算法
- 王小草【机器学习】笔记--分类算法之朴素贝叶斯
- 王小草【机器学习】笔记--分类算法之决策树
- 机器学习笔记之朴素贝叶斯分类算法
- 机器学习实战 笔记一:kNN分类算法
- 机器学习算法笔记之4:贝叶斯分类器
- 机器学习-分类算法总结
- 机器学习算法的分类
- 机器学习算法的分类
- 机器学习常见算法分类
- 互联网专家资源分享(四)
- vs2015 与iis express
- 九度OJ 1194:八进制 (进制转换)
- 杂七杂八的
- Android开发:Handler Runnable和Thread之间的区别和联系 应用
- 机器学习笔记_ch4_分类算法
- C++ static_cast和dynamic_cast的区别
- Uber从单体架构转向微服务架构
- IOS 开发,调用打电话,发短信,打开网址
- 【NOIP2006】金明的预算方案 背包DP
- msm8974 camera driver添加新摄像头kernel hal修改
- liunx常用的20个命令 绝对经典
- mysql探究之null与not null
- IOS 第三方库 - SDWebImage