《统计学习方法，李航》：1、概述

来源：互联网发布：日本二战殖民地知乎编辑：程序博客网时间：2024/04/28 15:58

1）统计学习

2）监督学习

3）统计学习三要素

4）模型评估与模型选择

5）判别模型与生成模型

1）统计学习

统计学习分为：监督学习（supervised learning）、无监督学习（unsupervised learning）、半监督学习（semi-supervised learning）、强化学习（reinforcement learning）等，本书主要讨论监督学习。

统计学习方法三要素：模型的假设空间（模型，model）、模型选择的准则（策略，strategy）以及模型学习的算法（算法，algorithm）。

实现统计学习的步骤如下：

（a）得到一个有限的训练数据集合；

（b）确定包含所有可能的模型的假设空间，即学习模型的集合；

（c）确定模型选择的准则，即学习的策略；

（d）实现求解最优模型的算法，即学习的算法；

（e）通过学习方法选择最优模型；

（f）利用学习的最优模型对新数据进行预测或分析。

2）监督学习

监督学习的模型可以是概率模型或非概率模型，由条件概率分布P(Y|X)或决策函数Y=f(X)表示，随具体学习方法而定。

根据输入、输出变量的不同类型，对预测任务给予不同的名称：输出变量均为连续变量的预测问题称为回归问题；输出变量为有限个离散变量的预测问题称为分类问题；输入变量与输出变量均为变量序列的预测问题称为标注问题。

标注问题在信息提取、自然语言处理等李玉应用广泛，常用的统计学习方法有：隐马尔科夫模型、条件随机场。

3）统计学习三要素

模型：概率模型或非概率模型，由示条件概率分布P(Y|X)或决策函数Y=f(X)表示，常常会有w、b等参数相伴。

策略：

代价函数：真是输出与预期输出的函数，如 L(Y, f(X)) = (Y - f(X))^2。

经验风险最小化（empirical risk minimization, ERM）：代价函数的期望值，Rerm = 1/N * ( L(y1, f(x1)) +...+ L(yn, f(xn)) )，样本容量大时效果才好，样本少会过拟合，极大似然估计是ERM典型例子。

结构风险最小化（structural risk minimization,SRM）：考虑过拟合问题，Rsrm = Rerm + rJ(f)，J(f)表示模型复杂度，模型f越复杂，J(f)越大，贝叶斯最大后验概率估计是SRM典型例子。

算法：例如最小化Rerm、Rsrm等。

4）模型评估与模型选择

训练误差、测试误差

正规化、交叉验证

泛化能力

正规化多说一点：正规化其实就是结构风险最小化的实践，即在经验风险上加上正规化项（regularizer），也称惩罚项（penalty term），即1/N * ( L(y1, f(x1)) +...+ L(yn, f(xn)) )+ rJ(f)。在回归问题中，正规化项可以是参数向量w的L2范数，即【rJ(f) = r/2 * ||w||^2】，也可以是参数向量w的L1范数，即【rJ(f) = r * ||w||1】。

5）判别模型与生成模型

生成模型：对观察序列的联合概率分布p(x,y)及p(x)建模，在获取p(x,y)及p(x)之后，可以通过贝叶斯公式p(y|x) = p(x,y) / p(x)得到条件概率分布（即，不直接对条件概率p(y|x)建模）。通常，生成模型收敛速度快。常见的生成模型有：Gaussian mixture model and othertypes of mixture model，HiddenMarkov model，NaiveBayes，AODE，LatentDirichlet allocation，RestrictedBoltzmann Machine。

判别模型：有样本直接学习决策函数f(x)或条件概率p(y|x)作为预测模型，在建模的过程中不需要关注联合概率分布。通常，判别模型准确性更好。常见的判别式模型有：Logistic regression，Linear discriminant analysis，Support vector machines，Boosting，Conditional random fields，Neural networks。

生成模型可以通过贝叶斯得到判别模型，但判别模型无法得到生成模型。

0 0