文章标题

来源：互联网发布：广告sdk联盟源码编辑：程序博客网时间：2024/06/06 03:59

统计学习方法

统计学习

1.本章主要是对统计学习所需要的概念知识做梳理。

对于一个有监督问题，我们希望根据样本训练出一个可以预测未知样本的模型。在于学习一个由输入到输出的映射，而这个映射就是模型。

首选需要确定一点：假设空间。即我们的模型是哪一类模型。首先假设要学习的模型属于某个函数集合。说白了就是一个带有参数的函数fθ(X,Y)。

然后，就是如何得到确定的模型，即确定θ的值。根据已知的样本(X,Y)和一个函数集（假设空间），得到一个较好的θ值。

在解决这个问题前，需要解决两个问题：1、什么是好的θ值；2、根据什么方法得到。其中第一个问题，就是要设计一个目标函数，尽量在样本都满足时，样本是最大的或者是最小的，这样子就转变为一个优化问题。第二问题就是要解这个优化问题。

2.主要介绍统计学习的三个要素，模型、策略、算法

模型：就是选择的函数集（包含了所有可能的模型的假设空间—-所有可能的条件概率分布和决策函数）

策略：按照什么样子的准则学习或者选择优化模型。统计学习的目标就是从假设空间中选择最优模型。
- 损失函数：一次预测的好坏。来度量预测的错误程度。
- 风险函数：平均意义下，模型预测的好坏。理论上，风险函数的联合概率分布是已知的，但在实际应用中是不可能。从而根据大数定理，用经验风险来逼近风险函数。
其中的策略包括：
1.经验风险最小化（ERM）
需要较大的样本。认为经验风险最小的模型最优。
2.结构风险最小化（MAP）
防止过度拟合。增加惩罚项，惩罚项跟模型的复杂度正相关。而模型的复杂度跟参数的多少有关。

算法：解优化目标问题。

3.模型的评价

当损失函数给定，基于损失函数的模型训练误差和模型的测试误差就成为评估方法。
训练误差，评价是不是一个容易学习的问题。
测试误差，评价对未知测试数据的预测能力。

4.模型的选择

1.正则化，处理过度拟合问题。
2.交叉验证，对于具有需要人工选择某个参数大小时，如正则化中的λ。

0 0