模式识别（Pattern Recognition）学习笔记（十五）--机器学习的范化能力（推广能力）

来源：互联网发布：python re 替换一部分编辑：程序博客网时间：2024/06/08 04:31

如有错误还请指正，并望海涵。。谢谢。。

模式识别是一种基于数据的机器学习，学习的目的不仅是要对训练样本正确分类，而且能对测试样本正确分类，这种能力叫做推广能力或范化能力。

如何评估一个学习机器的推广能力呢？

设某一样本x，其真实所属类别标签为y，用判别函数f(x,w)来估计y，估计过程中带来的损失为L(y,f(x,w))，则在某个w下对所有训练样本的决策损失为：

称作经验风险；

但其实我们真正关心的是测试样本在某个w下的风险：

称作期望风险；

是所有可能出现的样本及其类别标签的联合概率分布模型。

但是啊，这样的估计就一定保证可靠准确么？显然不行，于是《统计学习理论的本质》一书的作者Vapnik在他的书中给予了解答，他指出，有限样本下，经验风险与期望风险是有差别的，后者可能大于前者，但不管怎样，两者之间总是满足一个规律：

上面不等式右边第二项是一个关键项，叫做置信范围，与h成正比，与样本数量成反比，这里的h很重要，它就是著名的叫做VC维的东西，反映了机器的复杂性程度。

同时，透过这个规律，我们得到一个重要结论：在训练误差相同的情况下，机器的VC维越低，期望风险跟经验风险的差别就越小，机器的推广能力也就越好。

0 0