机器学习笔记_ch4_分类算法

来源:互联网 发布:俄罗斯套娃动作数据 编辑:程序博客网 时间:2024/06/03 10:40

  • 1Prerequisite Knowledge
  • 2解决分类问题的一般方法
  • 3决策树归纳Decision Tree
    • 1决策树的工作原理
    • 2如何建立决策树
      • 21Hunt算法
      • 22决策树归纳的设计问题
    • 3表示属性测试条件的方法
    • 4选择最佳划分的度量
    • 5决策树归纳算法
    • 6例子Web机器人检测
    • 7决策树归纳的特点
  • 4模型的过分拟合
    • 1噪声导致的过分拟合
    • 2缺乏代表性样本导致的过分拟合
    • 3过分拟合与多重比较过程
    • 4泛化误差估计
    • 5处理决策树归纳中的过分拟合
  • 5评估分类器的性能
    • 1保持方法
    • 2随机二次抽样
    • 3交叉验证cross-validation
    • 自助法
  • 6比较分类器的方法
    • 1估计准确度的置信区间
    • 2比较两个模型的性能
    • 3比较两种分类法的性能

分类任务就是确定对象属于哪个预定义的目标类。
- 介绍分类的基本概念
- 讨论诸如模型过分拟合的问题
- 评估和比较分类性能的方法

1Prerequisite Knowledge

分类任务的输入数据是记录的集合,用元组表示
区分分类和回归的关键特征:目标属性是离散的还是连续的

  • 分类:分类任务就是通过学习得到一个目标函数f,把每个属性x映射到一个预先定义的类标号y
  • 目标:

    • 描述性建模:作为解释性工具用于区分不同类中的对象

    • 预测性建模:分类模型还可以用于预测未知记录的类标号

  • 非常适用于预测和描述二元或标称类型的数据集。

2解决分类问题的一般方法

一种根据输入数据集建立分类模型的系统方法
+ 典型方法
+ 决策树分类法
+ 基于规则的分类法
+ 神经网络
+ SVM
+ Navie Bayes Classification

共同点:使用一种学习算法确定分类模型,很好地拟合输入数据中类标号和属性集之间的联系/, 是一种很好的泛化能力模型。
  • 评估方式

    • 混淆矩阵:提供衡量分类模型性能的信息

    • 性能度量:准确率,错误率

3决策树归纳Decision Tree

3.1决策树的工作原理

一系列问题和这些问题的可能回答可以组织成决策树的形式,决策树是一种由结点和有向边组成的层次结构。
三种结点
- 根节点
- 内部节点
- 叶节点:赋予一个类标号

3.2如何建立决策树

由于:搜索空间是指数规模的,找出最佳是不可行的
解决:采用贪心算法,采取一系列局部最优决策来构造决策树

3.2.1Hunt算法

属性测试条件attribute test condition
+ 1.Dt数据在一个目标属性:定位叶节点
+ 2.Dt数据在不同目标属性,分裂划分
+ 附加条件来简化决策
+ 第二步所创建的子女节点可以为空。

+ 如果与Dt相关联的所有记录都具有相同的属性值(目标属性除外),则不再进一步划分,以majority作为标号

3.2.2决策树归纳的设计问题

  • 如何分类训练记录?属性测试条件的选择
  • 如何停止分裂过程?

3.3表示属性测试条件的方法

为不同类型的属性提供表示属性测试条件和其对应的输出
+ 二元属性
+ 标称属性:多路划分
+ 序数属性
+ 连续属性

3.4选择最佳划分的度量

有很多度量可以用来确定划分记录的最佳方法,这些度量 用划分前和划分后记录的类分布定义。
选择最佳划分的度量通常是根据划分后子女节点的不纯度的程度。
- Entropy
- Gini
- C lassification error

比较划分前的不纯程度和子女结点的不纯程度,期望获得最大化的增益:

  • 1二元属性的划分
  • 2标称属性的划分
  • 3连续属性的划分
  • 4增益率

3.5决策树归纳算法

  • 输入:训练记录集E和属性集F
  • 精髓:递归地选择最优的属性来划分数据,并扩展叶结点
  • 建立决策树之后可以进行树剪枝,以减小决策树的规模。

3.6例子:Web机器人检测

Web使用挖掘 是使用数据挖掘的技术,从web访问日志中提取有用的模式。
区分:用户访问和web机器人访问

3.7决策树归纳的特点

  • 1决策树归纳是一种构建分类模型的非参数方法
  • 2 找到最佳的决策树是NP完全问题
  • 决策边界:属性测试条件是涉及单个属性
  • 斜决策树:oblique decision tree,允许测试条件涉及多个属性

4模型的过分拟合

  • 训练误差training error
  • 泛化误差generalization error
    过分拟合和拟合不足是两种与模型复杂度有关的异常现象

4.1噪声导致的过分拟合

训练记录被错误的标记

4.2缺乏代表性样本导致的过分拟合

根据少量训练数据做出分类决策的模型,很可能做出错误的预测

4.3过分拟合与多重比较过程

大量的候选属性和少量的训练记录最后导致了模型的过分拟合

4.4泛化误差估计

模型的复杂度对模型的过分拟合有影响:如何确定正确的模型复杂度?理想的复杂度是能产生最低泛化误差的模型的复杂度。
- 1.使用再代入估计:假设训练数据集可以很好地代表整体数据,因而使用训练误差提供对泛化误差的乐观估计。
- 2.结合模型复杂度
模型越复杂,出现过拟合的几率就越高。采用更简单的模型:
- 奥卡姆剃刀Occam’s razor:给定两个具有相同泛化误差的模型,较简单的模型比较复杂的模型更可取。

     - 训练误差     - 模型复杂度惩罚项penalty term:对于二叉树来说,0.5的惩罚项意味着只要至少能够改善一个训练记录的分类,结点就应该扩展。     - 最小描述长度原则minimum description length:     - 估计统计上界:泛化误差可以用训练误差的统计修正来估计。 训练误差的上界     - 使用确认集- 节俭原则principle of parsimony

4.5处理决策树归纳中的过分拟合

  • 先剪枝(提前终止规则)
  • 后剪枝:按照自底向上的方式修剪完全增长的决策树。

5评估分类器的性能

模型选择Model Selection:估计误差有助于学习算法进行模型选择。

5.1保持方法

将被标记的原始数据划分成两个不相交的集合,分别称为训练及和检验集。
在训练数据集上归纳分类模型,在检验集上评估模型的性能。

5.2随机二次抽样

可以多次重复保持方法来改进对分类器性能的估计

5.3交叉验证cross-validation

每个训练样本数据都用于检验,且恰好一次。

自助法

有放回的抽样法

6比较分类器的方法

依据数据集的大小,两个分类器准确率上的差异可能不是统计显著的。

6.1估计准确度的置信区间

6.2比较两个模型的性能

6.3比较两种分类法的性能

0 0
原创粉丝点击