第二章 模型评估与选择
来源:互联网 发布:怎么看淘宝的店铺装修 编辑:程序博客网 时间:2024/06/08 18:13
2.1 经验误差与过拟合
误差:经验误差(empirical error)、泛化误差(generalization error)。
错误率: 精度=1-错误率。
过拟合与欠拟合。(过拟合是无法彻底避免的,我们能做的知识缓解。)
2.2评估方法
(1)留出法。直接将数据集D划分为两个互斥的集合,其中一个集合作为训练集S,另一个作为验证集T。在S上训练出模型后,用T评估其测试误差,作为对泛化误差的估计。
Note1: 训练集与验证集的划分,要尽可能保持数据分布的一致性。例如保持样本的类别比例相似。
Note2:划分方式一般采取分层随机划分。
Note3:若S较大,T较小,评估结果不够稳定;若T较大,评估结果不够保真。约2/3~4/5的样本用于训练,平衡稳定性与保真性。
(2)交叉验证法。将数据集D划分为k个大小相似的互斥子集,每个子集都尽可能保持数据分布的一致性。然后,每次用k-1个子集的并集作为训练集,余下的那个子集作为测试集,进行k次训练和测试,最终返回的是这k个测试结果的均值。
Note1: 稳定性和保真性很大程度上取决于k值。
Note2:p次k折交叉验证。(随机使用㢥的划分重复p次。)
Note3: k=m时,留一法。不受随机划分的影响,且结果稳定保真,但是计算复杂度比较高。
(3)自助法。(Bootstrap,即有放回采样。)给定包含m个样本的数据集D,对它进行采样产生数据集D’:每次随机从D中挑选一个样本,将其拷贝至D’,然后再将该样本放回D中;这个过程重复执行m次,得到包含m个数据集的D’。显然,D中一些数据会多次出现在D’,而另一些不会出现。
Note1:D中未出现在D’的数据约有36.8%。
Note2:自助法在数据集小,难以有效划分时很有用,而在数据量足够时,留出法和交叉验证法更常用一些。
(4)调参与最终模型。给定包含m个样本的数据集D,事实上我们只使用了一部分数据训练模型。因此,在模型选择之后,学习算法和参数配置已选定,此时应用数据集D重新训练模型,才是最终的模型。
2.3 性能度量
- 第二章 模型评估与选择
- 第二章 模型评估与选择
- 第二章 模型评估与选择
- 机器学习(周志华) 参考答案 第二章模型评估与选择
- [机器学习 - 周志华] - 第二章 - 模型评估与选择
- <机器学习>(周志华)读书笔记 -- 第二章 模型评估与选择
- 西瓜书第二章 模型评估与选择
- 读书笔记《机器学习》:第二章:模型评估与选择
- 机器学习总结之第二章模型评估与选择
- 《机器学习》第二章 模型评估与选择 笔记1
- 第二章 模型评估与选择--机器学习(周志华) 参考答案
- 模型评估与选择-----第二部分
- 《机器学习》第二章 模型评估与选择 笔记2 泛化误差的评估方法
- 模型评估与选择
- 模型评估与选择
- 模型评估与选择
- 模型评估与选择
- 模型评估与选择
- G1 GC日志分析
- 数据库开发技术 目录
- 有道云笔记中使用Markdown编辑器编辑文本
- usaco6.1.1 Postal Vans
- LeedCode[657]Judge Route Circle
- 第二章 模型评估与选择
- angularJs同步请求
- 一个简单的dhtmlxTree实现
- Math库整理
- Jzoj2270 【SDOI2011】计算器
- Class类介绍
- 阿里云 安装 docker
- 解决maven中出现解决-Dmaven.multiModuleProjectDirectory system property is not set的问题
- com.google.android.afw.gts.AfwSupportTest#testManagedProfileSupported