《机器学习》第二章 模型评估与选择 笔记2 泛化误差的评估方法
来源:互联网 发布:淘宝保健品准入门槛 编辑:程序博客网 时间:2024/05/16 16:22
泛化误差的评估方法
(在现实任务中,还需考虑时间、存储空间的开销等其它因素,这里只考虑泛化误差)
用一个测试集来测试学习其对新样本的判别能力,然后以测试集上的测试误差作为泛化误差的近似。
在只有一个包含m个样例的数据集D,从中产生训练集S和测试集T。
1 留出法(hold-out)
D分为两个互斥的集合,一个作为S,一个作为T。
分层抽样(stratified sampling): S和T中正例和反例比例一样。
例如D包含500个正例,500反例。分层采样获得含70%样本的S,有350正例,350反例;30%样本的T,有150正例,150反例。
单次使用留出法得到的估计结果往往不够稳定可靠,故一般采用若干次随机划分、重复进行实验评估后取平均值作为留出法的评估结果。
例如,进行100次随机划分,每次产生一个训练/测试集用于实验评估,100次后得到100个结果,而留出法返回的则是这100个结果的平均。
弊端:测试集T比较小,评估结果不够稳定准确,偏差大。
常见将大约2/3~4/5的样本用于训练,剩余样本用于测试。
2 交叉验证法(cross validation)
将数据集D划分为k个大小相似的互斥子集。(D通过分层采样得到每个子集Di,保持数据分布一致性)。每次用k-1个子集的并集作为训练集,余下那个作测试集。即可获得K组训练/测试集,进行K次训练和测试,最终返回k个测试结果的均值。也称”k折/倍交叉验证”(k-fold cross validation)。
为减小因样本划分不同而引入的差别,k折交叉验证要随机使用不同的划分重复p次,最终评估结果是这p次k折交叉验证结果的均值,即进行p*k次训练/测试。
留一法:m个样本划分成m个子集,每个子集包含一个样本。留一法中被实际评估的模型与期望评估的用D训练出来的模型很相似,因此,留一法的评估结果往往被认为比较准确。
留一法缺陷:数据集较大,例如,数据集包含100w个样本,则需训练100w个模型。且留一法的估计结果未必比其他评估法准确。
3 自助法(bootstrapping)
从m个样本的数据集D,随机采样(选)一个样本,拷贝入训练D’,放回,继续随机挑选,直至m次。
样本在m次采样中始终不被踩到的概率(1-1/m)^m。
实际评估的模型与期望评估的模型都使用m个训练样本,而仍有约1/3的没有在训练集的样本用于测试。
自助法在数据集较小、难以有效划分训练/测试集时很有用。在初始数据量足够时,留出法和交叉验证法更常用。
4 调参与最终模型
① 选择适合的学习算法
② 对算法参数进行设定,调参(parameter tuning)
- 《机器学习》第二章 模型评估与选择 笔记2 泛化误差的评估方法
- 《机器学习》第二章 模型评估与选择 笔记1
- 机器学习(周志华) 参考答案 第二章模型评估与选择
- [机器学习 - 周志华] - 第二章 - 模型评估与选择
- <机器学习>(周志华)读书笔记 -- 第二章 模型评估与选择
- 读书笔记《机器学习》:第二章:模型评估与选择
- 机器学习总结之第二章模型评估与选择
- 第二章 模型评估与选择--机器学习(周志华) 参考答案
- 机器学习笔记--模型评估与选择
- 周志华《机器学习》学习笔记2--模型评估与选择
- 机器学习的模型评估与选择
- 机器学习-模型的评估与选择
- 《机器学习》第二章 模型评估与选择 笔记3 查准率、查全率
- 机器学习第二章模型评估与选择笔记(前篇)
- 周志华《机器学习》笔记:2、模型评估与选择
- 机器学习之模型评估与模型选择(学习笔记)
- 周志华《机器学习》第 2 章 模型评估与选择
- 机器学习学习笔记(3)----模型评估与选择
- Project Euler__problem 6
- python与java的对比学习(一)
- 快速求幂算法
- 如何像聪明人一样思考?
- tomcat 安全认证 Realm 及 多种类型 Realm 配置
- 《机器学习》第二章 模型评估与选择 笔记2 泛化误差的评估方法
- java web项目获取src和WebContent目录下的配置文件
- Java并发编程:volatile关键字解析
- SSO之CAS单点登录详细搭建教程
- BZOJ 2346 [Baltic 2011]Lamp dijkstra堆优化
- java socket tcp/ip基本数据类型编解码【高序字节 低序字节】
- 手动创建数据库的整体流程 Oracle 11g
- DB2分区表相关~
- 单例模式有五种写法:懒汉、饿汉、双重检验锁、静态内部类、枚举。