机器学习之模型选择

来源:互联网 发布:淘宝网蚕丝被多少钱 编辑:程序博客网 时间:2024/05/16 09:55

给定数据集合X, 机器学习致力于建立模型q,从而发现X中的规律。q是一个计算程序或数学模型。X 中数据量是有限的,可以被一个复杂度k 足够的 qk及任何一个qkq来完全描述

k越大,越能完全描述X,但是受到噪声的影响也越大。即k越大,描述噪声的机会越大。

k太小,则不能完全描述X,且k小则相应的描述误差rf(即经验风险或经验误差)越大。因此,难以由rf确定合适的k

我们更感兴趣的是预测。将qk用于非X但是仍能描述X中规律的数据,应的描述误差称泛化误差或风险rg,它随着k的变化有个最小点k
这里写图片描述
这里写图片描述

从20世纪60年代开始,人们开始探求模型选择问题。通常可归纳为三
个方向。
第一个方向是研究模型选择的基本度量,利用这些度量选择尽可能好的
预测模型,使预测误差尽可能降低,也就是提高可扩展性(即泛化能力),降低泛化风险。
该方向关注对分类器的定向分析。经常使用的评估标准为准确率和误差率。

第二个方向是从采样入手,基于数据集X重复取样的经验估计,要点
是每次从X获得两个不同子集,分别用于建立模型和评估它的rg
,并重复多次后获得平均值。这使得现有数据可以被扩展到无穷大,以至于近似等于包括未来数据的全部数据,这就是重采样技术。

第三个方向是利用模型互补,采用模型平均的方法来汇集不同模型的优势,从而得到一个较好的模型,这就是集成学习的方法。

0 0
原创粉丝点击