机器学习基石-Three Learning Principles

来源：互联网发布：树莓派gpio python 编辑：程序博客网时间：2024/05/25 01:35

大纲

这里写图片描述

Occam’s Razor

Simple Model

这里写图片描述

简单的假设是指包含更少的参数
简单的模型是指包含更少的假设
简单的模型通常意味着简单的假设

Simple is Better

那为什么简单的模型更好呢？下面从哲学的角度简单解释一下。机器学习的目的是“找规律”，即分析数据的特征，总结出规律性的东西出来。假设现在有一堆没有规律的杂乱的数据需要分类，要找到一个模型，让它的Ein=0，是很难的，大部分时候都无法正确分类，但是如果是很复杂的模型，也有可能将其分开。反过来说，如果有另一组数据，如果可以比较容易找到一个模型能完美地把数据分开，那表明数据本身应该是有某种规律性。也就是说杂乱的数据应该不可以分开，能够分开的数据应该不是杂乱的。如果使用某种简单的模型就可以将数据分开，那表明数据本身应该符合某种规律性。相反地，如果用很复杂的模型将数据分开，并不能保证数据本身有规律性存在，也有可能是杂乱的数据，因为无论是有规律数据还是杂乱数据，复杂模型都能分开。这就不是机器学习模型解决的内容了。

Sampling Bias

技术上的解释：训练数据来自分布P1,而测试数据来自分布P2,P1≠P2
物理上的解释：努力学习数学，结果是英语考试。
如果训练数据和测试数据不来自同一个分布，那么VC Bounds就会失效

Dealing With Bias

尽量让测试数据和训练数据服从独立同分布

Data Snooping

Power of Three

Three Theoretical Bounds

这里写图片描述

Hoeffding 理论是针对单个假设，所以他对于测试理论有帮助
Muti-Bin Hoeffding理论是针对M个假设，所以对于验证理论有帮助
VC理论是针对无限的假设，所以他对于训练理论很有帮助

阅读全文

0 0