机器学习中过拟合问题分析及解决方法
来源:互联网 发布:java解释器是什么 编辑:程序博客网 时间:2024/06/06 11:47
机器学习中过拟合问题分析及解决方法
表现:在训练集上的误差特别小,在测试集上的误差特别大。
原因:模型过于复杂,过分拟合数据噪声和outliers(离群值).
解决方法:
1、正则化。模型中添加先验知识,降低模型复杂度,降低噪声和离群值outliers的扰动影响。
举例1:抛硬币,推荐正面朝上的概率。如果抛五次结果都是正面朝上,得出结果正面朝上的概率是1——过拟合。
如果我们在模型中加上正面朝上概率为0.5的先验,则结果就不会离谱,这就是正则化。
举例2:最小二乘法求回归问题时,加2范数正则,等价于加高斯分布的先验;加1范数正则,等价于加拉普拉斯分布的先验。
2、决策树中的预剪枝(Pre-prunig)和后剪枝(Post-pruning).
Pre-pruning:预剪枝,预先设定某些规则,限定决策树的充分生长。实际运用较少。
Post-pruning:后剪枝,待决策树充分生长后,再通过某些规则进行剪枝。实际运用较多。
后剪枝:在决策树形成后,删除一些子树,用其叶子节点代替,叶子节点的类别用大多数原则确定,即被删除子树中多有节点中类别划分最多的类作为剪枝后的叶子节点类别。(majority class)
悲观剪枝Pessimistic-Error Pruning:使用训练集生成决策树,又使用训练集进行剪枝,会产生错分,但速度快,效率高。
降低错误率剪枝Reduced-Error Pruning:考虑 树上每个节点,作为待剪枝对象;删除此节点为根的子树,使其成为叶子节点;赋予该节点关联训练数据常见分类;判断剪枝后的树是否在测试集上的精度不会比原来的差,则真正删除此节点。通过这种bottom-up的方式,直到没有子树可以删除是的测试集的错误率降低,剪枝过程结束。
参考文章
1、http://www.open-open.com/lib/view/open1436689999779.html
2、http://blog.sina.com.cn/s/blog_4e4dec6c0101fdz6.html
3、http://blog.sina.com.cn/s/blog_68ffc7a40100urn3.html
- 机器学习中过拟合问题分析及解决方法
- 机器学习中过拟合问题
- 机器学习过拟合问题
- 机器学习 过拟合问题
- 机器学习:过拟合问题
- 机器学习中拟合与过拟合
- 机器学习中的过拟合问题
- 机器学习笔记之过拟合问题
- 机器学习算法中不得不知的欠拟合与过拟合问题
- 机器学习过拟合
- 机器学习过拟合
- 斯坦福大学机器学习笔记——过拟合问题以及正则化的解决方法
- [读书笔记] 《Python 机器学习》- 过拟合的几种解决方法
- 【机器学习】过拟合与欠拟合
- 机器学习--欠拟合与过拟合
- 【机器学习基础】过拟合
- 机器学习防止过拟合
- 【机器学习基础】过拟合
- Hibernate基本配置
- Hibernate继承映射
- Java面向对象概述
- iOS pushcontroller时自动隐藏tabbar
- 预装64位Win8/8.1电脑安装64位Win7详细过程(单/双系统)
- 机器学习中过拟合问题分析及解决方法
- C++设计模式浅识装饰模式
- 工厂模式三部曲-简单工厂模式
- 金额转大写
- Redis应用案例 查找某个值的范围
- Java面向对象--封装private
- 算法之自底向上的归并排序
- final、finally、finalize的区别
- Struts2_声明式异常处理