ing

来源:互联网 发布:淘宝上卖种子 编辑:程序博客网 时间:2024/04/20 03:25

过拟合:在训练数据上表现良好,在位置数据上表现差。
欠拟合:在训练数据和未知数据上表现都很差。

模型容量(复杂度)和模型泛化

模型容量:以线性回归为例,模型如果太过简单,那么显然并不能很好的拟合数据;相反,如果模型复杂度特别大,在训练集上可能会非常好的“记住”了这些特征,但是到测试集上就会崩,就好比我们死记硬背了例题换个样子就不会做了。即:增大模型容量,训练误差和测试误差都会下降,但是过度增加仍然会导致测试误差上升
模型泛化:泛化指的是我们将我们的模型可以应用于其他场景,有些看样子学习的很好,实际上根本就不科学,也就是不可学。普适逼近定理:只要给定足够多的神经元,单隐层全连接网络表达能力总是足够强的。话是这么说,但是讲表达能力是没意义的,表达了不代表学习到了,我们最终的目的是要有一个很好学习能力的模型而不是为了某个东西而表达出来,这和死记硬背例题没有什么区别。

低偏差低方差:神枪手,打的准发挥稳定
低偏差高方差:发挥很不稳定,有时候打的准有时候不准
高偏差低方差:可能由于枪或者眼神的问题,发挥的稳定只是打的不准
高偏差高方差:完全不会玩,乱打的那种

偏差(Bias):反应的是观测数据和真实值之间的差距,偏差越大,越偏离真实数据
方差(Variance):反应的是预测值的变化范围,也就是模型的离散程度,方差越大代表模型分布越分散

常见机器学习病症解决方案:

增加训练集数量
降低模型复杂度
提升模型复杂度
采用多模型设置
采用Adaboost对多个弱模型进行提升