机器学习笔记_ch4_分类算法

来源：互联网发布：俄罗斯套娃动作数据编辑：程序博客网时间：2024/06/03 10:40

1Prerequisite Knowledge
2解决分类问题的一般方法
3决策树归纳Decision Tree
- 1决策树的工作原理
- 2如何建立决策树
  - 21Hunt算法
  - 22决策树归纳的设计问题
- 3表示属性测试条件的方法
- 4选择最佳划分的度量
- 5决策树归纳算法
- 6例子Web机器人检测
- 7决策树归纳的特点
4模型的过分拟合
- 1噪声导致的过分拟合
- 2缺乏代表性样本导致的过分拟合
- 3过分拟合与多重比较过程
- 4泛化误差估计
- 5处理决策树归纳中的过分拟合
5评估分类器的性能
- 1保持方法
- 2随机二次抽样
- 3交叉验证cross-validation
- 自助法
6比较分类器的方法
- 1估计准确度的置信区间
- 2比较两个模型的性能
- 3比较两种分类法的性能

分类任务就是确定对象属于哪个预定义的目标类。
- 介绍分类的基本概念
- 讨论诸如模型过分拟合的问题
- 评估和比较分类性能的方法

1Prerequisite Knowledge

分类任务的输入数据是记录的集合，用元组表示
区分分类和回归的关键特征：目标属性是离散的还是连续的

分类：分类任务就是通过学习得到一个目标函数f，把每个属性x映射到一个预先定义的类标号y
目标：
- 描述性建模：作为解释性工具用于区分不同类中的对象
- 预测性建模：分类模型还可以用于预测未知记录的类标号
非常适用于预测和描述二元或标称类型的数据集。

2解决分类问题的一般方法

一种根据输入数据集建立分类模型的系统方法
+ 典型方法
+ 决策树分类法
+ 基于规则的分类法
+ 神经网络
+ SVM
+ Navie Bayes Classification

共同点：使用一种学习算法确定分类模型，很好地拟合输入数据中类标号和属性集之间的联系/， 是一种很好的泛化能力模型。

评估方式
- 混淆矩阵：提供衡量分类模型性能的信息
- 性能度量：准确率，错误率

3决策树归纳Decision Tree

3.1决策树的工作原理

一系列问题和这些问题的可能回答可以组织成决策树的形式，决策树是一种由结点和有向边组成的层次结构。
三种结点
- 根节点
- 内部节点
- 叶节点：赋予一个类标号

3.2如何建立决策树

由于：搜索空间是指数规模的，找出最佳是不可行的
解决：采用贪心算法，采取一系列局部最优决策来构造决策树

3.2.1Hunt算法

属性测试条件attribute test condition
+ 1.Dt数据在一个目标属性：定位叶节点
+ 2.Dt数据在不同目标属性，分裂划分
+ 附加条件来简化决策
+ 第二步所创建的子女节点可以为空。

+ 如果与Dt相关联的所有记录都具有相同的属性值（目标属性除外），则不再进一步划分，以majority作为标号

3.2.2决策树归纳的设计问题

如何分类训练记录？属性测试条件的选择
如何停止分裂过程？

3.3表示属性测试条件的方法

为不同类型的属性提供表示属性测试条件和其对应的输出
+ 二元属性
+ 标称属性：多路划分
+ 序数属性
+ 连续属性

3.4选择最佳划分的度量

有很多度量可以用来确定划分记录的最佳方法，这些度量用划分前和划分后记录的类分布定义。
选择最佳划分的度量通常是根据划分后子女节点的不纯度的程度。
- Entropy
- Gini
- C lassification error

比较划分前的不纯程度和子女结点的不纯程度，期望获得最大化的增益：

1二元属性的划分
2标称属性的划分
3连续属性的划分
4增益率

3.5决策树归纳算法

输入：训练记录集E和属性集F
精髓：递归地选择最优的属性来划分数据，并扩展叶结点
建立决策树之后可以进行树剪枝，以减小决策树的规模。

3.6例子：Web机器人检测

Web使用挖掘是使用数据挖掘的技术，从web访问日志中提取有用的模式。
区分：用户访问和web机器人访问

3.7决策树归纳的特点

1决策树归纳是一种构建分类模型的非参数方法
2 找到最佳的决策树是NP完全问题
决策边界：属性测试条件是涉及单个属性
斜决策树：oblique decision tree，允许测试条件涉及多个属性

4模型的过分拟合

训练误差training error
泛化误差generalization error
过分拟合和拟合不足是两种与模型复杂度有关的异常现象

4.1噪声导致的过分拟合

训练记录被错误的标记

4.2缺乏代表性样本导致的过分拟合

根据少量训练数据做出分类决策的模型，很可能做出错误的预测

4.3过分拟合与多重比较过程

大量的候选属性和少量的训练记录最后导致了模型的过分拟合

4.4泛化误差估计

模型的复杂度对模型的过分拟合有影响：如何确定正确的模型复杂度？理想的复杂度是能产生最低泛化误差的模型的复杂度。
- 1.使用再代入估计：假设训练数据集可以很好地代表整体数据，因而使用训练误差提供对泛化误差的乐观估计。
- 2.结合模型复杂度
模型越复杂，出现过拟合的几率就越高。采用更简单的模型：
- 奥卡姆剃刀Occam’s razor：给定两个具有相同泛化误差的模型，较简单的模型比较复杂的模型更可取。

     - 训练误差     - 模型复杂度惩罚项penalty term:对于二叉树来说，0.5的惩罚项意味着只要至少能够改善一个训练记录的分类，结点就应该扩展。     - 最小描述长度原则minimum description length：     - 估计统计上界：泛化误差可以用训练误差的统计修正来估计。 训练误差的上界     - 使用确认集- 节俭原则principle of parsimony

4.5处理决策树归纳中的过分拟合

先剪枝（提前终止规则）
后剪枝：按照自底向上的方式修剪完全增长的决策树。

5评估分类器的性能

模型选择Model Selection：估计误差有助于学习算法进行模型选择。

5.1保持方法

将被标记的原始数据划分成两个不相交的集合，分别称为训练及和检验集。
在训练数据集上归纳分类模型，在检验集上评估模型的性能。

5.2随机二次抽样

可以多次重复保持方法来改进对分类器性能的估计

5.3交叉验证cross-validation

每个训练样本数据都用于检验，且恰好一次。

自助法

有放回的抽样法

6比较分类器的方法

依据数据集的大小，两个分类器准确率上的差异可能不是统计显著的。

6.1估计准确度的置信区间

6.2比较两个模型的性能

6.3比较两种分类法的性能

0 0