【Machine Learning】笔记：Train/Validation/Test Sets

来源：互联网发布：淘宝店铺怎么发布微淘编辑：程序博客网时间：2024/06/06 06:51

课程来自 Coursera 上 Andrew Ng 的 machine learning 第6周的内容。

怎样选择模型？比如多项式回归，怎样选择多项式的次数？

比如分别有 1-10 次的 10 个多项式，可以将数据集划分为 Train/Test 两部分，老师推荐的比例为 7：3，对数据在 Train 上进行拟合，之后检验 Test 上的误差，看几次多项式的 Test 误差最小，就选几次。
Tips：在划分数据集时，如果数据是有规律或是排好序的，需要打乱。

但是，能否用最终得到的 Test 上的误差来估计该算法的泛化误差？
这是不行的，如果这样做了，会导致估计的误差偏小，因为 Test 集是被用来选择“几次方”这个参数的，对该参数而言，在 Test 集上已经被优化过了，即相当于是个训练“几次方”参数的训练集。

因此，更好的做法是把数据分为 Train/Validation/Test 三部分，老师推荐的比例为 6：2：2，Train 集用来训练多项式系数，Validation 集用来选择几次多项式，Test 集用来估计泛化误差（generalization error）。

阅读全文

0 0