08-模型选择

来源：互联网发布：mysql 删除库中所有表编辑：程序博客网时间：2024/05/16 16:09

模型复杂度

验证集（validation set）：训练集独立出来的一部分数据，用于比较各个模型的预测能力，最后选择最优的那个
测试集（test set）：有限的数据集迭代多次，那么对于验证数据会发生一定程度的过拟合，所以需要测试集

交叉验证出现的原因：如果验证集比较小，它对预测表现的估计就会有一定的噪声

留一法：使用 (S−1)/S 的可用数据用来训练，同时使用所有的数据来评估表现。当数据相当稀疏时，使得 S=N 是比较合适的选择。最后利用运行结果的表现得分求平均值。

需要进行的训练的次数随着因子 S 增加，训练时间增长不可控
多个超参数的情况，参数组合训练次数过多
找超参数的理想方法：度量方法只依赖于训练数据，并且超参数的确定与模型类型的选择可以通过一次训练得出。需要找到一种只依赖于训练数据的表现度量，并且不会受过拟所产生的偏置的影响。

赤池信息准则（Akaike information criterion），简称为AIC
公式：

ln p (D | w M L) - M

方法：这里的

p(D|wML) 是最合适的对数似然函数，

M 是模型中的可调节参数
缺点：AIC准则没有考虑到模型参数的不确定性，在实际应用中它们倾向于选择过于简单的模型。

0 0