过拟合overfitting

来源：互联网发布：怎么提高淘宝搜索权重编辑：程序博客网时间：2024/05/16 01:22

下面左图即为欠拟合，中图为合适的拟合，右图为过拟合。
这里写图片描述

过拟合：在模型参数拟合过程中，由于训练数据包含抽样误差，训练时复杂的模型将抽样误差也考虑在内（抽样误差也进行了拟合）。模型泛化能力弱，在训练集上效果好，在测试集上效果差。

导致过拟合的原因（包括但不限于如下几个）：

训练样本过少，不足以对整个样本空间进行分布估计;对模型进行过度训练（overtraining）

避免过拟合的方法：early stopping、数据集扩增（Data augmentation）、正则化（Regularization）、Dropout等。

1.early stopping

模型训练过程中常用到迭代的思路，例如梯度下降算法。Early stopping是在迭代收敛之前，就通过一定标准提前终止迭代来防止过拟合。

具体做法是在每个Epoch结束时（一个Epoch集为对所有的训练数据的一轮遍历），查看模型性能评价指标的变化情况，如果模型性能不再提高，就停止训练。这里的重点就是如何确认模型性能不再提高了。以准确率为例，并不是说一旦准确率发生下降就是不再提高了，因为可能经过这个Epoch后，准确率降低了，但是随后的Epoch又让准确率又上去了，所以不能根据一两次的连续降低就判断不再提高。

判断准确率是否提高的做法是，在训练过程中记录到目前为止最好的准确率，当连续10次Epoch（或若干次）没有达到这个最佳准确率时，就认为不会再提高，停止迭代。

2.数据集增扩

根据独立同分布假设，更多的数据往往对样本空间的整体分布估计更准确，不过实际应用中由于种种原因，并不一定总能获得足够的数据，例如成本问题。

通俗得讲，数据机扩增即需要得到更多的符合要求的数据，即和已有的数据是独立同分布的，或者近似独立同分布的。一般有以下方法：从数据源头采集更多数据；复制原有数据并加上随机噪声；重采样；根据当前数据集估计数据分布参数，使用该分布产生更多数据等。

3.正则化方法（Regularization）、权重衰减（weight decay ）

大的权值会使得系统出现过拟合，降低其泛化性能。为了避免出现overfitting,会给误差函数添加一个惩罚项，常用的惩罚项是所有权重的平方乘以一个衰减常量之和。将权值大小加到cost里，训练时用来惩罚大的权值。训练时一方面降低输出与样本之间的误差，一方面降低权值发大小。参考自http://blog.sina.com.cn/s/blog_890c6aa30100z7su.html

关于正则化（优化时，在目标函数或代价函数后面加上一个正则项）可以避免过拟合的原因，有如下几种角度进行解释：

1）正则化是假设模型的参数服从先验概率，即为模型参数添加先验，不同的正则化方式的先验分布不一样（L1正则是拉普拉斯先验，而L2正则则是高斯先验）。规定了参数的分布，降低了模型的复杂度，增强对噪声和异常点的抗干扰能力。

2）L2与L1的区别在于，L1正则是拉普拉斯先验，而L2正则则是高斯先验。它们都是服从均值为0，协方差为1/λ。当λ=0时，即没有先验。没有正则项，则相当于先验分布具有无穷大的协方差，那么这个先验约束则会非常弱，模型为了拟合所有的训练集数据，参数w可以变得任意大从而使得模型不稳定，即方差大而偏差小。λ越大，标明先验分布协方差越小，偏差越大，模型越稳定。即，加入正则项是在偏差bias与方差variance之间做平衡tradeoff。之前关于正则化介绍中有一幅图如下：

上图中的模型是线性回归，有两个特征，要优化的参数分别是w1和w2，左图的正则化是l2，右图是l1。蓝色线就是优化过程中遇到的等高线，一圈代表一个目标函数值，圆心就是样本观测值（假设一个样本），半径就是误差值，受限条件就是红色边界（就是正则化那部分，我的理解是这个红色边界就是限定了先验分布），二者相交处，才是最优参数。可见右边的最优参数只可能在坐标轴上，所以就会出现0权重参数，使得模型稀疏。

4 Dropout

这是神经网络中的一种方法，通过修改神经网络本身结构来防止过拟合。

此外，maxout、DropConnect号称是对Dropout的改进。可参考http://www.cnblogs.com/tornadomeet/p/3430312.html

总结：

参考自：http://blog.csdn.net/heyongluoyao8/article/details/49429629

https://www.zhihu.com/question/59201590 （写的很详细，推荐细看）

转自：http://blog.sina.com.cn/s/blog_7103b28a0102wozt.html

阅读全文

0 0