《统计学习方法》学习笔记(一)——统计学习方法概论

来源:互联网 发布:cnki数据库 编辑:程序博客网 时间:2024/06/04 19:53

将记录学习此书的历程。以章节为单位。最后还会开辟专题。


统计学习方法三要素:模型(model)、策略(strategy)、算法(algorithm)。

Supervised learning:它的任务是学习一个模型,使模型能够对任意给定的输入与其相应的输出做一个好的输出。

回归问题:输入变量与输出变量均为连续变量的预测问题;
分类问题:输出变量为有限个离散变量的预测问题称为分类问题。

一个关于监督学习数据的基本假设是:随机变量X和Y具有联合概率分布。

损失函数:度量模型一次预测的好坏;
风险函数:度量平均意义下模型预测的好坏。

损失函数(Loss Function):记作这里写图片描述
常用的损失函数有:1.0-1损失函数;2.平方损失函数;3.绝对损失函数;4.对数损失函数这里写图片描述

风险函数(risk function)或平均期望损失(expected loss)
它是关于联合分布这里写图片描述 的平均意义下的损失
学习目标:选择期望风险最小的模型;

经验风险(empirical risk)或经验损失(empirical loss)
它是关于训练集的平均损失;

用经验风险去估计期望风险往往结果不理想,因此有如下策略:
1.经验风险最小化;
2.结构风险最小化;

经验风险最小化(empirical risk minimization,ERM)
例子:极大似然估计(maximum likelihood estimation)
但是,当样本容量很小时,会产生“过拟合(over-fitting)”现象。

结构风险最小化(structural risk minimization,SRM)
它是等价于“正则化(regularization)”——防止过拟合而提出的策略,正则化的作用就是选择经验风险与模型复杂度同时较小的模型。
定义结构风险:这里写图片描述 ,其中这里写图片描述 叫做正则化项(regularizer)或罚项(penalty term),它可以是参数向量的二范数,也可以是参数向量的一范数。

这里写图片描述 为模型的复杂度,表示对模型的惩罚;它与模型f呈正相关。
应用实例:贝叶斯估计中的最大后验概率估计。

泛化能力(generalization ability)
表示方法对未知数据的预测能力

过拟合(over—fitting)
学习时选择模型所包含的参数越多,对已知数据预测地越好,但是对未知数据预测的效果不好。

常用的模型选择方法:正则化和交叉验证

交叉验证(cross validation)
数据可以分为三部分:
1.训练集(training set)这里写图片描述训练模型
2.验证集(validation set)这里写图片描述模型的选择
3.测试集(test set)这里写图片描述对学习方法的评估
常用的验证方法有:
1.简单交叉验证
2.S折交叉验证(S-fold cross validation)
3.留一交叉验证(leave-one-out cross validation)

泛化误差上界(generalization error bond)
泛化误差通常具有以下的性质:
1.它是样本容量的函数,当样本容量增加时,泛化上界趋于0;
2.它是假设空间容量(capacity)的函数,假设空间容量越大,模型就越难学,泛化误差上界就越大。

二分类评价指标:
分类结果混淆矩阵:
这里写图片描述
1.精确率(precsion)这里写图片描述 这里写图片描述

2.召回率(recall)这里写图片描述 这里写图片描述
两者是相互矛盾的!
此外定义精确率和召回率的调和平均这里写图片描述
这里写图片描述 显然,精确率和召回率的增加,F1的值也会增加。

回归问题等价于函数拟合
回归学习最常用的损失函数是平方损失函数,在此情况下,回归问题可以由最小二乘法(least squares)求解

阅读全文
0 0
原创粉丝点击