机器学习_周志华版_读书笔记_02 模型评估与选择
来源:互联网 发布:java获取svn版本号 编辑:程序博客网 时间:2024/06/05 03:53
第二章 模型评估与选择
一、经验误差与过拟合
1、训练误差与泛化误差
误差:学习器的实际预测输出与样本的真实输出之间的差异。
训练误差:学习器在训练集上的误差。也称经验误差。
泛化误差:在新样本上的误差。
显然,我们希望得到泛化误差小的学习器.然而,我们事先并不知道新样本是什么样,实际能做的是努力使经验误差最小化。
2、过拟合与欠拟合
当学习器把训练样本学得“太好”了的时候,很可能已经把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质,这样就会导致泛化性能下降。这种现象在机器学习中称为 “过拟合”(overfitting)。与“过拟合”相对的是“欠拟合”(underfitting),这 是指对训练样本的一般性质尚未学好。
3、模型选择
在现实任务中,我们往往有多种学习算法可供选择,甚至对同一个学习算法,当使用不同的参数配置时,也会产生不同的模型.那么,我们该选用哪一个学习算法、使用哪一种参数配置呢?这就是机器学习中的“模型选择”(model selection)问题
二、评估方法
由于无法获得泛化误差,可以使用一个“测试集”(testing set)来测试学习器对新样本的判别能力,然后以测试集上的“测试误差”(testing error)作为泛化误差的近似。测试集应该尽可能与训练集互斥。
使泛化误差小,好比如使同学具有“举一反三”的能力。训练样本相当于给同学做练习题,测试样本相当于考试。
我们只有一个包含m个样例的数据集D,既要训练,又要测试,怎样才能做到呢?答案是:通过对D进行适当的处理,从中产生出训练集S和测试集T.下面介绍几种常见的做法.
1、留出法
直接将数据集D划分为两个互斥的集合,其中一个集合作为训练集S,另一个作为测试集T, 即D = SUT, S∩T = ф。在S上训练出模型后,用T来评估其测试误差,作为对泛化误差的估计.
单次使用留出法得到的估计结果往往不够稳定可靠,在 使用留出法时,一般要釆用若干次随机划分、重复进行实验评估后取平均值作 为留出法的评估结果.例如进行100次随机划分,每次产生一个训练/测试集用 于实验评估,100次后就得到100个结果,而留出法返回的则是这100个结果的平均。
常见做法是将大约2/3〜4/5的 样本用于训练,剩余样本用于测试。
2、交叉验证法
3、自助法
4、调参与最终模型
现实中常用的做法,是对每个参数选定一个 范围和变化步长,例如在丨0,0.2]范围内以0.05为步长,则实际要评估的候选参 数值有5个,最终是从这5个候选值中产生选定值.显然,这样选定的参数值往 往不是“最佳”值,但这是在计算开销和性能估计之间进行折中的结果,通过这个折中,学习过程才变得可行。
- 机器学习_周志华版_读书笔记_02 模型评估与选择
- 机器学习(周志华)_第二章模型评估与选择
- <机器学习>(周志华)读书笔记 -- 第二章 模型评估与选择
- 读书笔记《机器学习》:第二章:模型评估与选择
- 机器学习模型评估与选择
- 机器学习(二) 模型评估与选择
- 机器学习----模型评估与选择
- 机器学习—模型评估与选择
- 周志华 机器学习 模型选择与评估
- 机器学习笔记--模型评估与选择
- 机器学习的模型评估与选择
- 机器学习-模型的评估与选择
- 机器学习模型评估与选择
- 机器学习-模型评估与选择
- 机器学习(周志华)读书笔记-(二)模型评估与选择
- 《机器学习》读书笔记 4 第2章 模型评估与选择 一
- 《机器学习》读书笔记 4 第2章 模型评估与选择 二
- 机器学习之模型评估与模型选择(学习笔记)
- Ubuntu配置Django+ Apache2+ mysql
- c语言单链表
- 权利的艺术--AJ第22个Maintext翻译
- Ubuntu 16.04 安装可视化数据库浏览器 SQLite Browser 3.8
- 算法导论学习笔记之1--从LCS到动态规划
- 机器学习_周志华版_读书笔记_02 模型评估与选择
- 测试上线邮件书写规范
- 程序员必须掌握的8大排序算法(三):简单选择排序
- java append方法
- 剪花布条 HDU
- CodeVS1369 xth 砍树 解题报告【数据结构】【线段树/树状数组】
- 使用java来实现阻塞队列
- pecl是什么 如何在centos下安装pecl
- 鞭策自己,养成个好习惯吧