文章标题

来源:互联网 发布:广告sdk联盟源码 编辑:程序博客网 时间:2024/06/06 03:59

统计学习方法

统计学习

1.本章主要是对统计学习所需要的概念知识做梳理。

对于一个有监督问题,我们希望根据样本训练出一个可以预测未知样本的模型。在于学习一个由输入到输出的映射,而这个映射就是模型。

首选需要确定一点:假设空间。即我们的模型是哪一类模型。首先假设要学习的模型属于某个函数集合。说白了就是一个带有参数的函数fθ(X,Y)

然后,就是如何得到确定的模型,即确定θ的值。根据已知的样本(X,Y)和一个函数集(假设空间),得到一个较好的θ值。

在解决这个问题前,需要解决两个问题:1、什么是好的θ值;2、根据什么方法得到。其中第一个问题,就是要设计一个目标函数,尽量在样本都满足时,样本是最大的或者是最小的,这样子就转变为一个优化问题。第二问题就是要解这个优化问题。

2.主要介绍统计学习的三个要素,模型、策略、算法

模型:就是选择的函数集(包含了所有可能的模型的假设空间—-所有可能的条件概率分布和决策函数)

策略:按照什么样子的准则学习或者选择优化模型。统计学习的目标就是从假设空间中选择最优模型。
- 损失函数:一次预测的好坏。来度量预测的错误程度。
- 风险函数:平均意义下,模型预测的好坏。理论上,风险函数的联合概率分布是已知的,但在实际应用中是不可能。从而根据大数定理,用经验风险来逼近风险函数。
其中的策略包括:
1.经验风险最小化(ERM)
需要较大的样本。认为经验风险最小的模型最优。
2.结构风险最小化(MAP)
防止过度拟合。增加惩罚项,惩罚项跟模型的复杂度正相关。而模型的复杂度跟参数的多少有关。

算法:解优化目标问题。

3.模型的评价

当损失函数给定,基于损失函数的模型训练误差和模型的测试误差就成为评估方法。
训练误差,评价是不是一个容易学习的问题。
测试误差,评价对未知测试数据的预测能力。

4.模型的选择

1.正则化,处理过度拟合问题。
2.交叉验证,对于具有需要人工选择某个参数大小时,如正则化中的λ

0 0
原创粉丝点击