机器学习(六) - - 模型评估和选择①经验误差与过拟合

来源:互联网 发布:python加减乘除函数 编辑:程序博客网 时间:2024/06/05 08:21

模型评估和选择(一)

经验误差和过拟合

 

错误率(error rate):分类错误的样本数占总样本的比例

“精度”(accuracy):就是1-错误率。。。(为嘛不翻译成正确率)

误差(error ):实际预测输出和样本真实输出之间的差异

训练误差/经验误差(training error):学习器在训练集上的误差

泛化误差(generalization error):在新样本上的误差(就是实际测试的)

过拟合(overfitting):在训练时把训练误差弄到了最小,某种程度上在真实规律的基础上把训练样本一些自身的“特点”也融入了进来,会导致泛化能力降低(也就是说训练样本结果很好,测试结果不一定好)。

欠拟合(underfitting):和过拟合相反,对训练样本的一般性质没学好

 

 

过拟合的原因:最常见的是学习能力过于强大,把很多训练样本特有的属性也学习进来了(解决这个问题挺麻烦的,无法彻底避免,只能“缓解”)

欠拟合的原因:学习能力不行(解决方案:决策树中扩展分支,神经网络学习中增加训练轮数等。)

 

过拟合无法解决的一个解释:当前的机器学习问题一般都是NP问题甚至更难,如果能用经验误差最小化获得最优解,那么就构造性证明了“P=NP”;如果相信“P≠NP”,过拟合就不可避免。

P,NP概念解释地址:http://blog.csdn.net/zmdsjtu/article/details/52700872

 

 

一个过拟合和欠拟合直观的例子:

 

涉及的关键问题是如何选择模型,我们需要让泛化误差最小,但又不能获得泛化误差,等下回分解。

 





最后祝大家学习愉:)

1 0