训练和测试的区别（五）

来源：互联网发布：淘宝毛呢短裤编辑：程序博客网时间：2024/04/28 09:35

一、

下面我们讲的是：为什么需要机器学习？

上节课中，我们讲了机器学习的大致的训练过程是这样的:

1.从样本出发，把样本传给机器。

2.机器从一群的假设函数中找到一个最好的h使得E（in）（h）最小，这样的话，由于如果假设函数集合较小的话，我们认为E（in）（h）≈E（out）（h），也就是说

此时E（out）（h）也是最小的

那么有一个问题是，既然我们想找到一个E（in）（h）最小的假设函数，干脆我们直接让机器记忆所有的样本集合算了，这样的话假设函数的E（in）（h）一定是0，但是这不是我们想要的，我们其实目的是为了让E（out）（h）最小，但是由于我们不知道E（out）（h）最小，所以我们只能用E（in）（h）来代替，我们要让机器找出来的E（in）（h）最小的那个假设函数g在E（out）（h）也要近似最小，这就需要机器学习了。

此时，我们可以把机器学习的核心总结为两个问题：

1.我们是否能确认E（in）≈E（out）

2.我们怎么找到最小的E（in）

那么我们来看一下我们的假设函数集的数目M和以上两个问题的关系：

如果M很小的话，我们第一个问题可以大的概率保证，但是第二个问题，M很小的话，我们的算法选择假设函数范围就变小，找到一个很小的E（in）（h）的可能性就很低

如果M很大的话，我们的第二个问题就有大的几率保证，M很大，选择的空间越多，找到E（in）（h）很小的几率就会很大，但是对于第一个问题就不行了，M很大，那么

根据，我们知道此事发生坏事情（也就是算法找到的假设函数的E（in）和E（out）差别很大）的几率就会很大

这也就是说我们要找到一个合适的M。

但是如果M是无限大怎么办呢？

二、把无限大的M专为有限

我们首先来看一下有限的情况下霍夫丁不等式的推导过程：也就是这个不等式

1.我们说对于一个假设函数来说是不好的事情，也就是其|E（in）-E（out）|>ε

2.为了使得我们的算法找到最好的h，我们就计算一下，我们的算法对于所有的假设函数发生不好的事情的几率的上限

那么我们就得到这个概率的上限是

那么，当我们的M无线多的时候，那么我们的这个上界就没有意义了

注意上面的那个上界，我们为什么可以用它做上界，根据概率知识我们知道，我们计算上界的时候认为我们的每一个假设函数的发生不好的事情都是不重叠的。

但是实际情况并不是这样的，如果我们的两个假设函数h_1和h_2很接近，所以其E（out）（h_1）≈E（out）那么对于大部分的样本集合二者的E（in）（h_1）=E（in）（h_2）

也就是说有很多情况下发生坏事情是重叠的，而不是分离的。

我们现在要做的就是把假设函数进行分类。

假设我们的样本集合只有一个样本，那么我们的线可以分为两类，为什么？

如图所示，这种情况下我们把线只分为了两类：一类是把这个样本分为类A，一类线是把样本分为了B类

再考虑如果只有两个样本集合的情况，我们应该把线分为几类呢？

分别如图情况的是四种线。

那么同样如果是三个样本的情况呢？

三个样本的情况下是8种线，但是需要注意，难道只要是三个点我们就一定能够把线分为8种吗？

不是的，如果三个点在一条直线上的话，如图

如图所示，圆圈画出的情况，我们是找不到这样的直线的，也就是说我们只能把直线分为6种

那么继续，我们如果只有四个样本的情况呢？

如图所示，4个样本的时候，我们第一想法是把线分为16种（图中只画了一半，其余是对称的），但是注意在上图圆圈圈到的地方，我们其实是找不到这样的直线的，也就是说我们最多只能找到14种，再加上如果某三个点在一条直线上，或者四个点都在一条直线上的情况，那么可以划分的种类就更少了，所以四个点的时候最多可以划分为14种直线。

总结一下：