<统计学习方法>1 概论

来源:互联网 发布:安卓7.0 知乎 编辑:程序博客网 时间:2024/05/20 13:12

From 《统计学习方法》李航

先来个目录有个宏观的了解:
统计学习目录


统计学习

  • 统计学习关于数据的基本假设是同类数据具有一定的统计规律性。
  • 统计学习的方法是基于数据构建统计模型从而对数据进行预测与分析。
  • 统计学习由监督学习(supervised learning),非监督学习(unsupervised learning),半监督学习(self-supervised learning),和强化学习(reinforcement learning)组成。(本书主要讨论监督学习)
  • 统计学习方法包括:模型的假设空间(hypothesis space),模型选择的准则(evaluation criterion),和模型学习的算法。也就是统计学习方法的三要素

监督学习

  • 监督学习的模型可以是概率模型或非概率模型。
  • 由条件概率分布 P(Y|X) 或决策函数(decision function)Y=f(X) 表示。
  • 对于具体的输入进行相应的输出预测时,写作P(y|x) 或 y=f(x)

统计学习三要素

模型(model)

  • 模型就是所要学习的条件概率分布或决策函数
  • 模型的假设空间包含所有可能的条件概率分布或决策函数
  • 假设空间用 F 表示,可以定义为决策函数的集合:
    F={f|Y=f(X)}

    • 其中,X,Y 是定义在输入空间和输出空间上的变量。这时 F 通常是由一个参数向量决定的函数族:
      F={f|Y=fθ(X),θRn}
    • 参数向量 θ 取值于 n 维欧式空间 Rn,称为参数空间(parameter space)
  • 假设空间也可以定义为条件概率的集合:
    F={P|P(Y|X)}

    • 其中,X,Y 是定义在输入空间和输出空间上的随机变量。这时 F 通常是由一个参数向量决定的条件概率分布族:
      F={P|Pθ(Y|X),θRn}
    • 参数向量 θ 取值于 n 维欧式空间 Rn,称为参数空间(parameter space)
  • 我们称决策函数表示的模型为非概率模型,由条件概率表示的模型为概率模型

策略(strategy)

  • 损失函数(loss function)和风险函数(risk function)

    • 用损失函数或代价函数(cost function)来度量预测错误的程度。损失函数是 f(X) 和 Y 的非负实值函数,记作 L(Y,f(X)).
    • 损失函数值越小,模型就越好。
    • 由于模型的输入输出(X,Y)是随机变量,遵循联合分布P(X, Y),所以损失函数的期望是:
      Rexp(f)=EP[L(Y,f(X))]=X×YL(y,f(x))P(x,y)dxdy
    • 以上是理论模型f(X)关于联合分布P(X, Y)的平均意义下的损失,成为风险函数或期望损失(expected loss)
    • 注意,联合概率分布是未知的,所以通过学习来得到
    • 模型f(X)关于训练数据集的平均损失称为经验风险(empirical risk)或经验损失(empirical loss),记作 Remp:
      Remp(f)=1Ni=1NL(yi,f(xi))
    • 根据大数定律,当样本容量N趋于无穷时,经验风险趋于期望风险。
  • 经验风险最小化与结构风险最小化

    • 经验风险最小化(empirical risk minimization, ERM)的策略认为,经验风险最小的模型,就是最优的模型。
    • 根据以上策略,求最优模型就是求解最小化 Remp 的问题:
      minfF1Ni=1NL(yi,f(xi))
    • 极大似然估计(maximum likelihood estimation)就是经验风险最小化的一个例子。因为当样本容量足够大,经验风险最小能保证好的学习效果。
    • 当模型是条件概率分布,损失函数是对数损失函数时,经验风险最小化就等价于极大似然估计。
    • 但当样本容量很小时,会产生“过拟合”现象
    • 结构风险最小化(structural risk minimization, SRM)是为了防止过拟合而提出的策略。结构风险最小化等价于正则化(regularization).
    • 结构风险在经验风险上加上表示模型复杂度的正则化项(regularizer)或罚项(penalty term),定义为:
      Rsrm(f)=1Ni=1NL(yi,f(xi))+λJ(f)

      其中 J(f) 为模型的复杂度,是定义在假设空间上的泛函。模型 f 越复杂,复杂度 J(f) 越大
    • λ0 是系数。结构风险小需要经验风险与模型复杂度同时小。
    • 贝叶斯估计中的最大后验概率估计(maximum posterior probability estimation,MAP)就是结构风险最小化的一个例子。
    • 当模型是条件概率分布,损失函数是对数损失函数,模型复杂度由模型的先验概率表示时,结构风险最小化就等价于最大后验概率估计。
    • 结构风险最小化的策略认为结构风险最小的模型就是最优的模型,所以求最优的模型,就是求解以上式子的最优化问题

算法(algorithm)

  • 算法是指学习模型的具体计算方法
  • 一般来说,统计学习问题最后归结为最优化问题
  • 如果最优化问题有显式的解析解,那么这个问题就比较简单
  • 但如果没有,就需要用数值计算的方法求解,保证快速简单地找到全局最优解。

模型评估与模型选择

  • 模型选择方法: 正则化与交叉验证(S-fold cross validation)
  • 学习方法的泛化能力(generalization ability):指由该方法学习到的模型对未知数据的预测能力
    • 泛化误差(generalization error): 如果学到的模型是 f^, 那么用这个模型对未知数据预测的误差即为泛化误差:
      Rexp(f^)=EP[L(Y,f^(X))]=X×YL(y,f^(x))P(x,y)dxdy
  • 泛化误差上界:通过比较两种学习方法的泛化误差上界的大小来比较他们的优劣。
    • 它是样本容量的函数,当样本容量增加时,泛化上界趋于0
    • 它是假设空间容量(capacity)的函数,假设空间容量越大,模型越难学,泛化误差上界就越大。

生成模型与判别模型

  • 监督学习方法可以分为生成方法(generative approach)和判别方法(discriminative approach),所学到的模型分别称为生成模型和判别模型
  • 生成方法由数据学习联合概率分布 P(X, Y),然后求出条件概率分布P(Y|X) 作为预测的模型,即生成模型:
    P(Y|X)=P(X,Y)P(X)

    • 之所以称为生成方法,是因为模型表示了给定输入X产生输出Y的生成关系。
    • 典型的生成模型:朴素贝叶斯法和隐马尔可夫模型
    • 生成方法的特点:可以还原出联合概率分布 P(X, Y);学习收敛速度快;同样适用于隐变量的情况。
  • 判别方法由数据直接学习决策函数f(X)或者条件概率分布 P(Y|X) 作为预测模型,即判别模型
    • 判别方法关心的是对给定的输入X,应该预测什么样的输出Y
    • 典型的判别模型:k 近邻法,感知机,决策树,逻辑斯回归模型,最大熵模型,支持向量机,提升方法和条件随机场等。
    • 判别方法的特点:不能还原联合概率分布;能够简化问题,直接面对预测,学习的准确性更高;不能适用于隐变量存在的情况。

分类问题、标注(tagging)问题、回归问题

  • 标注常用的统计学习方法:隐马尔可夫模型,条件随机场