《机器学习》（周志华）读书笔记

来源：互联网发布：淘宝店铺注销编辑：程序博客网时间：2024/06/02 04:18

周志华老师的新书《机器学习》，第28页论及训练集相关的方法时，讲道 “给定包含m个样本的数据集D，在模型评估与选择过程中由于需要留出一部分数据进行评估测试，事实上我们只使用了一部分数据训练模型。因此，在模型选择完成后，学习算法和参数配置已选定，此时应该用数据集D重新训练模型。这个模型在训练过程中使用了所有m个样本，这才是我们最终提交给用户的模型。“

这里，个人有一点异议。训练数据的量级本就是个相对的数字，如果量级不够，自然训练出来的模型无法满足需求，还需要继续收集样本以训练之。反之，如果训练集的量级已经足够，且参数都已设置好了，那么原来承担验证集的样本，也无必要重新投入模型进行训练。否则，最后一次训练的结果出来后，需要重新调整原来的参数吗？除之此外，k-fold之类的交叉验证法，已可以满足所收集的样本，均能参与到模型训练过程中，也就将其所代表的总体分布特征在训练过程中进行了体现。

总结下，个人认为模型训练完成后，无须再把所有样本全部投入，再进行一次训练。

0 0