学习理论-模型选择-2-训练样本数量与误差上界

来源：互联网发布：网络传播概论新编编辑：程序博客网时间：2024/06/05 09:57

在模型选择-1-问题引入中我们知道，我们要获得尽可能小的泛化误差。下面让我们一起看看泛化误差与样本数量和模型数量的关系。

当H中模型数有限时

证明一致收敛性

我们假设H={h1,...,hk},这里只考虑二分类情况，即H中每个模型都能够将样本X映射到{0,1}。
假如选定H中的某个模型hi，定义Z是一个伯努利随机变量(Z∈{0,1})，对于样本集(x,y)∼D,我们使Z=I{hi(x)≠y}，即对于任意样本输入样本，我们用Z表示hi是否将它误分类。进而我们用Zj=I{hi(x(j))≠y(j)}表示第j个样本是否被hi误分类。因为我们的样本集满足独立同分布，因此Zj也服独立同分布。
回想之前对训练误差的定义:ϵ^(h)=1m∑mi=1I{h(x(i))≠y(i)}，因此这里我们可以改写成ϵ^(hi)=1m∑mj=1Zj，这里的Zj是满足伯努利分布的，因此可以利用模型选择-1-问题引入中给出的第二个fact（Hoeffding不等式）得到：
这里写图片描述
上式说明，对于确定的hi当样本数量m很大时,训练误差将会非常接近泛化误差（实际误差）。下面将它推广到整个模型集H：
首先，令Ai代表|ϵ(hi)−ϵ^(hi)|>γ.我们可得：

第一行是指：我们的模型中只要有一个满足条件即可，或者说至少要有一个满足条件，因为我们只需要选择出一个最好的模型。第二行以及后面的显然是成立的。
两边同时用1减得：
这里写图片描述
该条件称为，一致性收敛（uniform convergence），它是说明，当m足够大时，假设集中的所有hi的训练误差与泛化误差都会很接近。
如果给定γ和δ=2ke−2γ2m需要多少训练样本才能保证训练误差与泛化误差的差值在γ以内的概率为1−δ呢？
我们可以得到m≥12γ2log2kδ.

同样的我们可以固定m和δ进而求γ，得到：|ϵ^(h)−ϵ(h)|≤12mlog2kδ−−−−−−−−√

使用一致收敛性得出结论

基于一致收敛性，
令h^=argminh∈Hϵ^(h)
令h∗=argminh∈Hϵ(h)
h^是我们的算法选择的模型，h∗是模型集中实际上最好的一个。
我们可以得到下面的结论：
这里写图片描述
第一行使用了条件|ϵ(h^)−ϵ^(h^)|≤γ,第二行的依据是，我们的算法选择h^时，对应的ϵ^(h)是最小的。因此对于任意的ϵ^(h^)≤ϵ^(h),故可得第二行；第三行再次使用了一致性收敛条件。
因此，可知，如果满足了一致性收敛，那么我们的算法选择出的模型h^的泛化误差最多比模型集H中最好的模型高出2γ.

因此令|H|=k,固定m,δ不变，我们有1−δ概率可得：
这里写图片描述
显然不等式右面第二项就是γ.
这个式子实际上描述了偏差与方差的权衡；当模型数量增加时右面第一项只会减小，不会增大，但是第二项却因为k变大而增大；第一项其实反映了偏差，第二项反映了方差。
令|H|=k,δ,γ不变，为了使得ϵ(h^)≤minh∈Hϵ(h)+2γ的概率最好少为1−δ，可得：
这里写图片描述

当H中模型数无限时

为了简化处理，我们由一个不太严谨的假设开始：
假设H中的模型全是线性回归模型，模型的参数有d个，假设一个浮点型在计算机中用64位表示，那么，，那么H中可能的假设模型共有264d种组合，即k=264d.这样利用之前证明的结论，为了保证ϵ(h^)≤ϵ(h∗)+2γ的概率至少为1−δ，需要满足这里写图片描述
因此，训练样本数量至少与参数数量线性相关。
虽然这个假设不严谨，但是他却是合理的，且可以推广到k为无限大的情况：
因为对于线性回归分类hθ(x)=I{θ0+θ1x1+...+θnxn≥0}也可以写成hu,v(x)=I{(u20−v20)+(u21−v21)x1+...+(u2n−v2n)xn≥0}，参数数量可以增大到无限，且他们都是模型集H中的参数。H一直是n维中的线性分类模型的集合。

给定一个新的样本集X（它和训练样本没有关系）以及类别集合{y(1),y(2),...,y(d)}，如果H中存在模型h使得对于任意的i=1,...,d都有h(x(i))=y(i)，那么称H 分散（shatters） S，即存在h能够完美的对S中的样本分类。
看下面的图来说明分散问题(shatters)：
这里写图片描述
由图可知二维坐标系中的任意两个点必然可以被线性分类器shatter.

可见二维坐标中的三个点也可以被线性分类器shatter.

显然二维坐标系中的四个点必然存在不能被线性分类器shatter的情况。

给定一个H，我们定义它的Vapnik-Chervonenkis dimension（简称VC尺度）为VC(H)，VC尺度表示H所能shatter的最大的样本数，若H能够shatter任意多的样本，那么VC(H)=∞.

begin-补充-VC维

在二维坐标系中，三个样本点的情况下存在下面分布情况，左图是三个样本的分布位置，右图是在在这三个位置上可能出现的一种分布情况，显然在这种分布下他是无法被线性分类器shatter的。
这里写图片描述
但是，当我们给予这三个点不同的坐标，可以找到使得他们能够被shatter的情况，比如三个点的位置如下，显然这就是我们上面的例子中的分布，基于这三个点的当前位置的所有组合（共23个可能组合）都是可以被线性分类器成功分类，因此三个样本是可以被shatter的：
这里写图片描述

但是对于二维坐标系中的四个点，必然是不能被线性分类器shatter的，即无法给四个样本找到固定的坐标，使得基于当前坐标的24种可能的分布都能够被线性分类器成功分类。

因此，线性分类器，在二维坐标系中的VC维d=3.

end-补充

下面给出Vapnik和Chervonenkis基于VC维证明得到的结论：
对于某一H，已知d=VC(H)，那么对于所有的h∈H，至少有1−δ的概率满足下式：
这里写图片描述
因此可知，至少有1−δ的概率满足下式：

上式说明，当H的VC维有限时，那么它随着样本数量m的增加是一致收敛的。

下面得到我们的结论：
对于h∈H,为了使得|ϵ(h)−ϵ^(h)|≤γ（即ϵ^(h)≤ϵ(h∗)+2γ）的概率至少为1−δ，那么必须有m=Oγ,δ(d)

因此，训练样本的数量，应该与H的VC维呈线性关系。
事实上，实际应用中，VC维基本都是是和训练模型的参数数目相差无几的，因此样本数量也是与样模型参数呈线性关系的。

1 0