机器学习基石-Three Learning Principles

来源:互联网 发布:树莓派gpio python 编辑:程序博客网 时间:2024/05/25 01:35

大纲

这里写图片描述

Occam’s Razor

Simple Model

这里写图片描述

  • 简单的假设是指包含更少的参数

  • 简单的模型是指包含更少的假设

  • 简单的模型通常意味着简单的假设

Simple is Better

那为什么简单的模型更好呢?下面从哲学的角度简单解释一下。机器学习的目的是“找规律”,即分析数据的特征,总结出规律性的东西出来。假设现在有一堆没有规律的杂乱的数据需要分类,要找到一个模型,让它的Ein=0,是很难的,大部分时候都无法正确分类,但是如果是很复杂的模型,也有可能将其分开。反过来说,如果有另一组数据,如果可以比较容易找到一个模型能完美地把数据分开,那表明数据本身应该是有某种规律性。也就是说杂乱的数据应该不可以分开,能够分开的数据应该不是杂乱的。如果使用某种简单的模型就可以将数据分开,那表明数据本身应该符合某种规律性。相反地,如果用很复杂的模型将数据分开,并不能保证数据本身有规律性存在,也有可能是杂乱的数据,因为无论是有规律数据还是杂乱数据,复杂模型都能分开。这就不是机器学习模型解决的内容了。

Sampling Bias

Sampling Bias

  • 技术上的解释:训练数据来自分布P1,而测试数据来自分布P2,P1P2

  • 物理上的解释:努力学习数学,结果是英语考试。
    如果训练数据和测试数据不来自同一个分布,那么VC Bounds就会失效

Dealing With Bias

尽量让测试数据和训练数据服从独立同分布

Data Snooping

Power of Three

Three Theoretical Bounds

这里写图片描述

  • Hoeffding 理论 是针对单个假设,所以他对于测试理论有帮助

  • Muti-Bin Hoeffding理论 是针对M个假设,所以对于验证理论有帮助

  • VC理论 是针对无限的假设,所以他对于训练理论很有帮助

阅读全文
0 0
原创粉丝点击