机器学习过拟合

来源：互联网发布：stm32单片机教程 pdf 编辑：程序博客网时间：2024/05/18 02:27

参照台大机器学习教程
（https://mp.weixin.qq.com/s/vus2mp2RhCL0kPamXVKnAg）
- 过拟合的概念：过拟合就是训练出来的模型在训练集上表现很好，但是在测试集上表现较差的一种现象！下图给出例子：

这里写图片描述
我们将上图第三个模型解释为出现了过拟合现象，过度的拟合了训练数据，而没有考虑到泛化能力。在训练集上的准确率和在开发集上的准确率画在一个图上如下：

从图中我们能够看出，模型在训练集上表现很好，但是在交叉验证集上表现先好后差。这也正是过拟合的特征！
- 发生条件：VC维数过高，例如5个样本点，你用了4次多项式函数取拟合，可能出现过拟合。
- 从以下图观测VC维数和拟合程度的对比。
这里写图片描述
- 产生原因：训练模型过度导致模型非常复杂，资料本身的noise，资料量少。
影响见图：

红色表示过拟合程度大，蓝色过拟合程度底，左图中，x轴表示数据量，y轴表示服从高斯分布的噪声，模型复杂度为20.右图中，x轴表示数据量，y轴表示模型复杂度，高斯分布固定。
- 处理方式：简单模型开始，数据清洗、数据修剪，增加数据（根据领域知识产生更多数据），正则化操作（regularization），时时刻刻进行模型验证（validation）
（1）数据有噪声
为什么数据有噪声，就可能导致模型出现过拟合现象呢？
所有的机器学习过程都是一个search假设空间的过程！我们是在模型参数空间搜索一组参数，使得我们的损失函数最小，也就是不断的接近我们的真实假设模型，而真实模型只有知道了所有的数据分布，才能得到。
往往我们的模型是在训练数据有限的情况下，找出使损失函数最小的最优模型，然后将该模型泛化于所有数据的其它部分。这是机器学习的本质！
那好，假设我们的总体数据如下图所示：
这里写图片描述
（我这里就假设总体数据分布满足一个线性模型y = kx+b,现实中肯定不会这么简单，数据量也不会这么少，至少也是多少亿级别，但是不影响解释。反正总体数据满足模型y）
此时我们得到的部分数据，其中还有噪声的话，如图所示：
这里写图片描述
（红色数据点为噪声）
那么由上面训练数据点训练出来的模型肯定不是线性模型（总体数据分布下满足的标准模型），比如训练出来的模型如下：

那么我拿着这个有噪声训练的模型，在训练集合上通过不断训练，可以做到损失函数值为0，但是拿着这个模型，到真实总体数据分布中（满足线性模型）去泛化，效果会非常差，因为你拿着一个非线性模型去预测线性模型的真实分布，显而易得效果是非常差的，也就产生了过拟合现象！

阅读全文

0 0