统计学习的基本概念

来源：互联网发布：java音乐网站编辑：程序博客网时间：2024/05/01 01:31

过拟合（over-fitting）：是指学习时选择的模型所包含的参数过多，以致于这一模型对已知数据预测较好，对未知数据预测很差的现象。可以说模型选择旨在避免过拟合，并提高模型的预测能力。

泛化能力(generalization ability):是指学习到的模型对未知数据的预测能力，是学习方法的重要性质。现实生活中常常采用测试误差来评价学习方法的泛化能力。

在模型选择的典型方法是正则化和交叉验证。

交叉验证（cross validation）：把给定的数据集进行切分，将切分的数据集组合为训练集和测试集，用训练集来训练模型，用测试集对模型进行评估。

（1）简单交叉验证：首先简单的将数据集分为两部分，一部分作为训练集，另一分部作为测试集（70%是训练集，30%是测试集），然后用训练集在各种条件下训练模型，从而得到不同的模型；在测试集上评价各个模型的测试误差，选出测试误差最小的模型；

（2）S折交叉验证：随机地将数据集切分为S个互不相交的大小相同的子集，然后利用S-1个子集训练模型，利用余下的子集测试模型；将这一过程对可能的S中选择重复进行，最后评选出S次平均测试误差最小的模型。

0 0