统计及其学习概念解析001

来源:互联网 发布:淘宝客好做不 编辑:程序博客网 时间:2024/06/07 23:54

统计机器学习之所以区别于传统机器学习的本质,就在于统计机器学习能够精确的给出学习的效果,能够解答需要的样本数等等一系列问题。与统计机器学习的精密思维相比,传统的机器学习基本上属于摸着石头过河,用传统的机器学习方法构造分类系统完全成为了一种技巧,一个人做的结果可能很好,另外一个人差不多方法做出来却很差,缺乏指导
和原则。

所谓VC维是对函数的一种度量,可以简单的理解为问题的复杂程度,VC维越高,一个问题就越复杂。正是因为SVM关注的是VC维,SVM解决问题的时候,和样本的维数是无关的(甚至样本是上万维的都可以,这使得SVM很适合用来解决文本分类问题,当然,有这样的能力也因为引入了核函数)。

结构风险最小化:机器学习本质上是一种对真实问题的逼近(我们选择一个我们认为比较好的近似模型,这个近似模型就叫做一个假设),但毫无疑问,真实模型一定是不知道的(如果知道了,我们就不用机器学习了),既然真实模型是不知道,那么我们选择的假设和问题真实解之间究竟有多大的差距,我们就没法知道了。这个与真实问题的误差,就叫做风险(更严格的说,误差的积累叫做风险)。我们选择了一个假设之后(更直观的说,选择了一个分类器之后),真实误差无从得知,但我们可以用某些可以掌握的量来逼近它。最直观的想法就是使用分类器在样本数据上的分类结果与真实结果(因为样本是已经标注过的数据,是准确的数据)之间的差值来表示。这个差值叫做经验风险Remp(w)。以前的及其学习是把经验风险最小化作为努力的目标,但后来发现很多分类函数能够在样本上做到100%的准确率,在真实分类时却一塌糊涂(即所谓的推广能力差,或泛华能力差)。此时的情况便是选择了一个足够复杂的分类函数(它的VC维很高),能够精确的记住每一个样本,但对样本之外的数据一律分类错误。后头看看经验风险最小化原则我们会发现,此原则适用的大前提是经验风险要确实能够逼近真实风险才行(一致),但实际上能逼近吗?答案是不能,因为样本数相对于现实世界要分类的文本数来说简直九牛一毛,经验风险最小化原则只在很小比例的样本上做到了没有误差,当然不能保证在更大比例的真实数据文本上也没有误差。

统计学习因此引入了泛化误差界的概念, 就是指真实风险应该由两部分内容刻画,一是经验风险,代表了分类器在给定样本上的误差;二是置信风险,代表了我们在多大程度上可以信任分类器在未知文本上分类的结果。很显然,第二部分是没有办法精确计算的,因此只能给出一个估计的区间,也使得整个误差只能计算上界,而无法计算准确的值(所以叫泛化误差界,而不叫泛化误差)。

PS:准确值x与近似值x之差称之为近似值x的绝对误差。在数值计算中,记为e(x)=xx,简记为e。但一般情况下,不能准确知道e(x)的大小,可以通过测量或计算|e(x)|=|xx|ϵ(x)。估计其绝对值的上界,叫做绝对误差上界。

置信风险与两个量有关,一是样本数量,显然给定的样本数量越大,我们的学习结果越有可能正确,此时的置信风险越小;二是分类函数的VC维越大,推广能力越差,置信风险会变大。

泛化误差界的公式为:R(w)Remp(w)+ϕ(n/h),公式中的R(w)就是真实风险,Remp(w)就是经验风险, ϕ(n/h)就是置信风险。统计学习的目从经验风险最小化变为了寻求经验风险和置信风险的和的最小化,即结构风险最小化。

0 0
原创粉丝点击