《机器学习》第二章模型评估与选择笔记2 泛化误差的评估方法

来源：互联网发布：淘宝保健品准入门槛编辑：程序博客网时间：2024/05/16 16:22

泛化误差的评估方法
(在现实任务中，还需考虑时间、存储空间的开销等其它因素，这里只考虑泛化误差)

用一个测试集来测试学习其对新样本的判别能力，然后以测试集上的测试误差作为泛化误差的近似。

在只有一个包含m个样例的数据集D，从中产生训练集S和测试集T。

1 留出法（hold-out）

D分为两个互斥的集合，一个作为S，一个作为T。

分层抽样(stratified sampling)： S和T中正例和反例比例一样。

   例如D包含500个正例，500反例。分层采样获得含70%样本的S，有350正例，350反例；30%样本的T，有150正例，150反例。

单次使用留出法得到的估计结果往往不够稳定可靠，故一般采用若干次随机划分、重复进行实验评估后取平均值作为留出法的评估结果。

    例如，进行100次随机划分，每次产生一个训练/测试集用于实验评估，100次后得到100个结果，而留出法返回的则是这100个结果的平均。

弊端：测试集T比较小，评估结果不够稳定准确，偏差大。

常见将大约2/3~4/5的样本用于训练，剩余样本用于测试。

2 交叉验证法(cross validation)

将数据集D划分为k个大小相似的互斥子集。(D通过分层采样得到每个子集Di,保持数据分布一致性)。每次用k-1个子集的并集作为训练集，余下那个作测试集。即可获得K组训练/测试集，进行K次训练和测试，最终返回k个测试结果的均值。也称”k折/倍交叉验证”（k-fold cross validation）。

10倍交叉验证示意图