机器学习之模型选择

来源：互联网发布：淘宝网蚕丝被多少钱编辑：程序博客网时间：2024/05/16 09:55

给定数据集合X, 机器学习致力于建立模型q,从而发现X中的规律。q是一个计算程序或数学模型。X 中数据量是有限的，可以被一个复杂度k 足够的 qk及任何一个qk⊆q来完全描述

k越大，越能完全描述X，但是受到噪声的影响也越大。即k越大，描述噪声的机会越大。

k太小，则不能完全描述X，且k小则相应的描述误差rf（即经验风险或经验误差）越大。因此，难以由rf确定合适的k∗。

我们更感兴趣的是预测。将qk用于非X但是仍能描述X中规律的数据，应的描述误差称泛化误差或风险rg，它随着k的变化有个最小点k∗
这里写图片描述

从20世纪60年代开始，人们开始探求模型选择问题。通常可归纳为三
个方向。
第一个方向是研究模型选择的基本度量，利用这些度量选择尽可能好的
预测模型，使预测误差尽可能降低，也就是提高可扩展性（即泛化能力），降低泛化风险。
该方向关注对分类器的定向分析。经常使用的评估标准为准确率和误差率。

第二个方向是从采样入手，基于数据集X重复取样的经验估计，要点
是每次从X获得两个不同子集，分别用于建立模型和评估它的rg
，并重复多次后获得平均值。这使得现有数据可以被扩展到无穷大，以至于近似等于包括未来数据的全部数据，这就是重采样技术。

第三个方向是利用模型互补，采用模型平均的方法来汇集不同模型的优势，从而得到一个较好的模型，这就是集成学习的方法。

0 0