《统计学习方法》学习笔记（一）——统计学习方法概论

来源：互联网发布：cnki数据库编辑：程序博客网时间：2024/06/04 19:53

将记录学习此书的历程。以章节为单位。最后还会开辟专题。

统计学习方法三要素：模型（model）、策略（strategy）、算法（algorithm）。

Supervised learning：它的任务是学习一个模型，使模型能够对任意给定的输入与其相应的输出做一个好的输出。

回归问题：输入变量与输出变量均为连续变量的预测问题；
分类问题：输出变量为有限个离散变量的预测问题称为分类问题。

一个关于监督学习数据的基本假设是：随机变量X和Y具有联合概率分布。

损失函数：度量模型一次预测的好坏；
风险函数：度量平均意义下模型预测的好坏。

损失函数（Loss Function）：记作 $这里写图片描述$
常用的损失函数有：1.0-1损失函数；2.平方损失函数；3.绝对损失函数；4.对数损失函数 $这里写图片描述$ ；

风险函数（risk function）或平均期望损失（expected loss）
它是关于联合分布 $这里写图片描述$ 的平均意义下的损失
学习目标：选择期望风险最小的模型；

经验风险（empirical risk）或经验损失（empirical loss）
它是关于训练集的平均损失；

用经验风险去估计期望风险往往结果不理想，因此有如下策略：
1.经验风险最小化；
2.结构风险最小化；

经验风险最小化（empirical risk minimization,ERM）
例子：极大似然估计（maximum likelihood estimation）
但是，当样本容量很小时，会产生“过拟合（over-fitting）”现象。

结构风险最小化（structural risk minimization，SRM）
它是等价于“正则化（regularization）”——防止过拟合而提出的策略，正则化的作用就是选择经验风险与模型复杂度同时较小的模型。
定义结构风险：这里写图片描述，其中叫做正则化项（regularizer）或罚项（penalty term），它可以是参数向量的二范数，也可以是参数向量的一范数。

这里写图片描述为模型的复杂度，表示对模型的惩罚；它与模型f呈正相关。
应用实例：贝叶斯估计中的最大后验概率估计。

泛化能力（generalization ability）
表示方法对未知数据的预测能力

过拟合（over—fitting）
学习时选择模型所包含的参数越多，对已知数据预测地越好，但是对未知数据预测的效果不好。

常用的模型选择方法：正则化和交叉验证

交叉验证（cross validation）
数据可以分为三部分：
1.训练集（training set） $这里写图片描述$ 训练模型
2.验证集（validation set） $这里写图片描述$ 模型的选择
3.测试集（test set） $这里写图片描述$ 对学习方法的评估
常用的验证方法有：
1.简单交叉验证
2.S折交叉验证（S-fold cross validation）
3.留一交叉验证（leave-one-out cross validation）

泛化误差上界（generalization error bond）
泛化误差通常具有以下的性质：
1.它是样本容量的函数，当样本容量增加时，泛化上界趋于0；
2.它是假设空间容量（capacity）的函数，假设空间容量越大，模型就越难学，泛化误差上界就越大。

二分类评价指标：
分类结果混淆矩阵：
这里写图片描述
1.精确率（precsion） $这里写图片描述$

2.召回率（recall） $这里写图片描述$
两者是相互矛盾的！
此外定义精确率和召回率的调和平均
显然，精确率和召回率的增加，F1的值也会增加。

回归问题等价于函数拟合
回归学习最常用的损失函数是平方损失函数，在此情况下，回归问题可以由最小二乘法（least squares）求解

阅读全文

0 0