机器学习笔记(1)经验误差与过拟合

来源:互联网 发布:淘宝购物车刷新 编辑:程序博客网 时间:2024/06/06 01:35

错误率:若在m哥样本中有a个错误,则错误率E=a/m, 相应的1-a/m为精度。
训练误差:学习器在训练集上的误差。
经验误差:在新样本上的误差。(又叫泛化误差 (empirical error))
过拟合:当学习器把样本训练的太好的时候,把它的所有特点都当做新样本本身所具有的特点。欠拟合是因为学习能力低下。
过拟合例子
所以需要“模型选择”来“评估”
http://news.91.com/all/s5926a635e6ab.html
但是,如果我们相信“P != NP”成立,那么就说明过拟合是不可避免的。


评估方法:

  • 留出法
  • 交叉验证法
  • 自助法

其中,自助法在数据集较小、难以有效划分训练和测试集很有用,因为是随机抽取,故可以产生多个数据集,对集成学习等方法具有很大好处。
然而,自助法产生的数据集改变了初始数据集的分布,会引入估计偏差,所以在初始数据量足够时,留出法和交叉验证法更常用些。

基于验证集上的性能来进行模型选择和调参

原创粉丝点击