《统计学习方法,李航》:1、概述

来源:互联网 发布:日本二战殖民地知乎 编辑:程序博客网 时间:2024/04/28 15:58

1)统计学习

2)监督学习

3)统计学习三要素

4)模型评估与模型选择

5)判别模型与生成模型




1)统计学习

     统计学习分为:监督学习(supervised learning)、无监督学习(unsupervised learning)、半监督学习(semi-supervised learning)、强化学习(reinforcement learning)等,本书主要讨论监督学习。

    统计学习方法三要素:模型的假设空间(模型,model)、模型选择的准则(策略,strategy)以及模型学习的算法(算法,algorithm)。

    实现统计学习的步骤如下:

        (a)得到一个有限的训练数据集合;

        (b)确定包含所有可能的模型的假设空间,即学习模型的集合;

        (c)确定模型选择的准则,即学习的策略;

        (d)实现求解最优模型的算法,即学习的算法;

        (e)通过学习方法选择最优模型;

        (f)利用学习的最优模型对新数据进行预测或分析。

2)监督学习

    监督学习的模型可以是概率模型非概率模型,由条件概率分布P(Y|X)或决策函数Y=f(X)表示,随具体学习方法而定。

    根据输入、输出变量的不同类型,对预测任务给予不同的名称:输出变量均为连续变量的预测问题称为回归问题;输出变量为有限个离散变量的预测问题称为分类问题;输入变量与输出变量均为变量序列的预测问题称为标注问题

   标注问题在信息提取、自然语言处理等李玉应用广泛,常用的统计学习方法有:隐马尔科夫模型、条件随机场。

3)统计学习三要素

模型:概率模型非概率模型,由示条件概率分布P(Y|X)或决策函数Y=f(X)表示,常常会有w、b等参数相伴。

策略:

    代价函数:真是输出与预期输出的函数,如 L(Y, f(X)) = (Y - f(X))^2

   经验风险最小化(empirical risk minimization, ERM):代价函数的期望值,Rerm = 1/N * ( L(y1, f(x1)) +...+ L(yn, f(xn)) ),样本容量大时效果才好,样本少会过拟合,极大似然估计是ERM典型例子。

   结构风险最小化(structural risk minimization,SRM):考虑过拟合问题,Rsrm = Rerm + rJ(f)J(f)表示模型复杂度,模型f越复杂,J(f)越大,贝叶斯最大后验概率估计是SRM典型例子。

算法:例如最小化Rerm、Rsrm等。

4)模型评估与模型选择

训练误差、测试误差

正规化、交叉验证

泛化能力

正规化多说一点:正规化其实就是结构风险最小化的实践,即在经验风险上加上正规化项(regularizer),也称惩罚项(penalty term),即1/N * ( L(y1, f(x1)) +...+ L(yn, f(xn)) )+ rJ(f)。在回归问题中,正规化项可以是参数向量w的L2范数,即【rJ(f) = r/2 * ||w||^2】,也可以是参数向量w的L1范数,即rJ(f) = r * ||w||1】。

5)判别模型与生成模型

    生成模型:对观察序列的联合概率分布p(x,y)及p(x)建模,在获取p(x,y)及p(x)之后,可以通过贝叶斯公式p(y|x) = p(x,y) / p(x)得到条件概率分布(即,不直接对条件概率p(y|x)建模)。通常,生成模型收敛速度快。常见的生成模型有:Gaussian mixture model and othertypes of mixture model,HiddenMarkov model,NaiveBayes,AODE,LatentDirichlet allocation,RestrictedBoltzmann Machine。

    判别模型:有样本直接学习决策函数f(x)或条件概率p(y|x)作为预测模型,在建模的过程中不需要关注联合概率分布。通常,判别模型准确性更好。常见的判别式模型有:Logistic regression,Linear discriminant analysis,Support vector machines,Boosting,Conditional random fields,Neural networks。

   生成模型可以通过贝叶斯得到判别模型,但判别模型无法得到生成模型。   


0 0