08-模型选择

来源:互联网 发布:mysql 删除库中所有表 编辑:程序博客网 时间:2024/05/16 16:09

  • 模型复杂度
    • 多项式曲线拟合
  • 交叉验证
    • 交叉验证方法
    • 缺点
    • AIC

模型复杂度

多项式曲线拟合

  • 存在一个最优的阶数使模型具有最好的泛化能力
  • 多项式的阶数控制着模型的自由变量的数量,从而控制模型的复杂度
  • 带有正则化的最小二乘,正则化系数 λλ 同样控制着模型的有效复杂度

交叉验证

验证集(validation set):训练集独立出来的一部分数据,用于比较各个模型的预测能力,最后选择最优的那个
测试集(test set):有限的数据集迭代多次,那么对于验证数据会发生一定程度的过拟合,所以需要测试集

交叉验证出现的原因:如果验证集比较小,它对预测表现的估计就会有一定的噪声

交叉验证方法

留一法:使用 (S1)/S 的可用数据用来训练,同时使用所有的数据来评估表现。当数据相当稀疏时,使得 S=N 是比较合适的选择。最后利用运行结果的表现得分求平均值。

缺点

需要进行的训练的次数随着因子 S 增加,训练时间增长不可控
多个超参数的情况,参数组合训练次数过多
找超参数的理想方法 :度量方法只依赖于训练数据,并且超参数的确定与模型类型的选择可以通过一次训练得出。需要找到一种只依赖于训练数据的表现度量,并且不会受过拟所产生的偏置的影响。

AIC

赤池信息准则(Akaike information criterion),简称为AIC
公式:

lnp(D|wML)M

方法:这里的 p(D|wML) 是最合适的对数似然函数, M 是模型中的可调节参数
缺点:AIC准则没有考虑到模型参数的不确定性,在实际应用中它们倾向于选择过于简单的模型。

0 0