李航统计学习方法笔记1 统计学习方法概论

来源：互联网发布：sql进阶编辑：程序博客网时间：2024/05/15 19:43

模型：由输入到输出的映射

假设空间：由输入空间到输出空间的映射多集合

模型：由条件概率分布P（Y｜X）或决策函数Y＝f(x)表示

损失函数：度量模型一次预测的好坏，用一个损失函数来度量预测错误的程度

风险函数：度量平局意义下模型预测的好坏

经验风险：模型f(x关于训练数据集的平均损失

当模型上条件概率分布，损失函数是对数损失函数时，经验风险最小化就等价于极大似然估计。

当样本容量小时，经验风险最小化会产生过拟合现象。

结构风险在经验风险上加伤表示模型复杂度的正则化项

当损失函数给定时，基于损失函数的模型的训练误差和模型的测试误差就自然成为学习方法评估的标准。

训练误差是模型Y=f(x)关于训练数据集的平均损失：

下图给出了M=0，M=1，M=3，M=9时的多项式函数拟合的情况，其中绿色曲线为真模型，红色为预测模型。

其中，M=0和M=1模型简单，拟合不足，训练误差较大；M=9模型复杂，过拟合，训练误差为0，但基本不具备推广性；M=3模型复杂度适中，泛化能力强，效果最好。

下图描述了训练误差和测试误差与模型的复杂度之间的关系：

当模型的复杂度增大时，训练误差会逐渐减小并趋向于0，而测试误差会先减少，达到最小值后又增大。模型选择的典型方法是正则化与交叉验证。

5.正则化与交叉验证

模型选择的典型方法是正则化，正则化的一般形式如下：

其中，第一项是经验风险，第二项是正则化项，正则化项可以取不同的形式，例如，正则化项可以是模型参数向量的范数。回归问题中，损失函数是平方损失，正则化项可以是参数向量的L2范数：

正则化项也可以是参数向量的L1范数：

经验风险较小的模型可能较复杂，这时正则化项的值会较大，正则化的作用是选择经验风险与模型复杂度同时较小的模型。

正则化符合奥卡姆剃刀原理，在所有可能的模型中，能够很好的解释已知数据并且十分简单的模型才是最好的模型。从贝叶斯估计的角度来看，正则化项对应于模型的先验概率，可以假设复杂的模型有较小的先验概率，简单的模型有较大的先验概率。

模型选择的另一种方法是交叉验证，使用交叉验证的前提是数据不充足，常见的有简单交叉验证、S折交叉验证和留一交叉验证。如果数据充足，选择模型的一种简单方法是随机的将数据集分成三部分，分别为训练集、验证集和测试集，训练集用来训练模型，验证集用于模型的选择，而测试集用于最终对学习方法的评估。如果数据不充足，可以采用交叉验证的方法来选择模型。

8.分类问题、标注问题和回归问题

前面提到过，输入变量和输出变量均为连续变量的预测问题称为回归问题；输出变量为有限个离散变量的预测问题称为分类问题；输入变量与输出变量均为变量序列的预测问题称为标注问题。

对于二分类问题，常用的评价指标是精确率和召回率。通常以关注的类为正类，其他类为负类，分类器在测试数据集上的预测或正确或不正确，4中情况出现的总数分别记为：

TP——将正类预测为正类数；

FN——将正类预测为负类数；

FP——将负类预测为正类数；

TN——将负类预测为负类数。

则，精确率定义为：

许多统计方法可以用于分类，包括k近邻法、感知机、朴素贝叶斯法、决策树、决策列表、逻辑斯谛回归模型、支持向量机、提升方法、贝叶斯网络、神经网络、Winnow等。

标注问题的输入是一个观测序列，输出是一个标记序列。标注问题在信息抽取、自然语言处理等领域被广泛采用。例如，自然语言处理中的词性标注就是一个典型的标注问题：给定一个由单词组成的句子，对这个句子中的每一个单词进行词性标注，即对一个单词序列预测其对应的词性标记序列。标注常用的统计学习方法有：隐马尔科夫模型、条件随机场。

回归问题的学习等价于函数拟合：选择一条函数曲线使其很好的拟合已知数据且很好地预测未知数据。回归问题按照输入变量的个数分为一元回归和多元回归，按照输入变量和输出变量之间的关系的类型即模型的类型，分为线性回归和非线性回归。回归学习最常用的损失函数时平方损失函数，在此情况下，回归问题可以用著名的最小二乘法求解。

0 0