机器学习:诊断偏差和方差

来源:互联网 发布:unity ugui 源码下载 编辑:程序博客网 时间:2024/05/29 19:02

如果一个机器学习算法表现不理想,要么是欠拟合,要么是过拟合。越高次方越能代表我们的训练集,但能适应训练集并不代表能推广至一般情况。

高偏差:训练误差很大,训练误差与测试误差很小,随着样本增多,训练误差增大。

高方差:训练误差很小,训练误差与测试误差差距很大,随着样本增多,测试误差会减小。


训练集误差和交叉验证集误差近似时:高偏差。

交叉验证集误差远大于训练集误差时:高方差。


在训练模型的过程中,一般会使用一些正则化的方法来防止过拟合。


当 λ 较小时,训练集误差较小(过拟合)而交叉验证集误差较大 
随着 λ 的增加,训练集误差不断增加(欠拟合),而交叉验证集误差则是先减小后


学习曲线是学习算法的一个很好的合理检验。


解决高方差:

1. 获得更多的训练实例

2. 尝试减少特征的数量

3. 尝试增加正则化程度 λ

解决高偏差:

1. 尝试获得更多的特征

2. 尝试增加多项式特征

3. 尝试减少正则化程度 λ

原创粉丝点击