Bengio Deep Learning 初探 —— 第5章：机器学习基础

来源：互联网发布：淘宝网图片保护入口编辑：程序博客网时间：2024/05/22 07:56

这一章节主要讲解了一些在机器学习领域的一个基础知识，包括一些术语和常用的统计方法，如上篇一样，这里列出该章的主要知识点：
      1）什么是学习算法？：
      对于某类任务 T 和性能度量P，一个计算机程序被认为可以从经验 E 中学习是指：通过经验 E 改进后，它在任务 T 上由性能度量 P 衡量的性能有所提升。
      任务T：通常机器学习任务定义为机器学习系统该如何处理样本 (example)。样本指我们从某些希望机器学习系统处理的对象或事件中收集到的已经量化的特征 (feature)的集合。
      任务分类：包括但不限于，分类，输入缺失分类，回归，转录，机器翻译，结构化输出，异常检测，合成和采样，缺失值填补，去噪，密度估计或概率分布律函数估计。
      性能度量P：准确率、错误率、查准率、召回率、F1
      经验E：可以简单的理解为监督学习和非监督学习

2)容量，过拟合和欠拟合：
容量是指模型容量，类似模型复杂度，一般通过选择假设空间来进行控制。过拟合和欠拟合是学习模型过程中两种不同的问题，如下图所示的直观理解(左：欠拟合，右：过拟合)

欠拟合和过拟合

3)Vapnik-Chervonenkis维度——VC维：：定义为该分类器能够分类的训练样本的最大数目，VC维是统计学习理论中的一个核心概念，它是目前为止对函数集学习性能的最好描述指标。详见http://blog.csdn.net/lanbing510/article/details/7441215

4)没有免费的午餐定理：在平均所有可能的数据生成分布上，每一个分类算法在未事先观测的点上都有相同的错误率。换言之，在某种意义上，没有一个机器学习算法总是比其他的要好。

5)正则化：是指我们对学习算法所做的降低泛化误差而非训练误差的修改。常见的通过添加一个关于模型参数的正则化项来实现，简单的直观例子，见http://blog.csdn.net/qsczse943062710/article/details/56484833

6)超参数：不能或难以通过对训练数据的训练而得到的参数，比如梯度下降中的学习率和正则化的参数lambda，一般根据大量实验和经验来确定(可以是一个定值，也可以根据实际问题定制超参数取值的公式)。

7)验证集：一般在训练模型的过程中，我们将样本分为三类：训练集，测试集和验证集。测试集用来测试通过对训练集训练得到的模型的性能，验证集通常是取自训练集，用来“训练获取”超参数的值。

8)交叉验证：普通交叉验证，k-fold交叉验证，leave-one-out交叉验证。具体做法请自行百度。

9)偏差(bias)和方差(variance)：偏差度量着真实函数或参数的误差期望。而方差度量着数据上任意特定采样可能导致的估计期望的偏差。

10)均值的标准误差：

PS：样本方差的平方根和方差无偏估计的平方根都不是标准差的无偏估计，这两者都倾向于低估真实的标准差，但是后者误差相对较小。

      11)均方误差：
      当可以选择一个偏差更大的估计和一个方差更大的估计时，会发生什么呢？我们该如何选择？
      判断这种权衡最常用的方法是交叉验证。另外，我们也可以比较这些估计的均方误差 (mean squared error,MSE)：

MSE度量着估计和真实参数 θ 之间平方误差的总体期望偏差。

12)一致性：

上式表述的条件被称为一致性，plim指以概率收敛，也即：

一致性保证了估计量的偏差会随数据样本数目的增多而减少。然而，反过来是不正确的——渐近无偏并不意味着一致性。

13)极大似然估计：本质上等价于最小化KL散度也等价于最小化分布之间的交叉熵，极大似然估计被广泛应用在机器学习关于参数求解，这里不做详细介绍。

      14)贝叶斯统计和最大后延估计(MAP)：
      频率派的观点认为参数Θ是真实存在但未知的，贝叶斯派则认为能观测到的数据是确定的，而参数Θ是未知或不确定的因此可以用随机变量来表示。贝叶斯派强调我们有一个先验“知识”，并通过不断的从观测数据中获取信息来修正这个“知识”。
     举个例子：我们假定一枚硬币质量均匀，那么在频率派的眼里，每次抛硬币取得正面和反面的概率都是0.5而无论我们每次单独实验的结果如何。贝叶斯派则是这样的，我们有一个先验知识，即认为每次抛硬币取得正面和反面的概率都是0.5，然后我们通过一次次的抛硬币，根据其结果来修正这个“知识”，比如我们抛了100次，有90次都是正面，此时我们就可能开始“怀疑”我们先验知识正确性，开始调整这个认知，就可能不再认为正面或反面的概率是相等的。
     实际应用中，这个先验“知识”我们一般用高斯分布，如果高斯分布的均值为0，协方差矩阵为lambda倍的单位矩阵，那么其对参数的估计和频率派采用的权重衰减的结果是一样的。
      最大后验估计就是在最大似然估计的基础上附加上一项我们的先验“知识”，其效果类似于正则化。

15)监督学习和非监督学习：前者是指给定的训练数据有对应的标签(输入)，而后者的训练数据只有特征。比如有这样一个问题，有很多病人特征的样本，以及每个病人得了什么病，我们通过学习来预测一个新的样本得了什么病，这就是监督学习；如果有一天病人的病历都丢了，只剩下病人的特征样本，我们要通过学习来讲具有相似特征的病人样本分为一类，并用来预测一个新的样本属于哪一类，这就是非监督学习。
监督学习的常见算法：Logistic回归(softmax回归)，SVM，决策树；非监督学习的常见算法：PCA，K-means

16)维数灾难：当待处理的数据维数很高时，很多机器学习问题将会变得很困难，这种问题被称为维数灾难，一般可以用PCA等方法对数据进行降维处理。

17)局部不变性和平滑正则性：机器学习中我们一般会通过先验经验来决定学习什么样的函数集，一般依靠隐式的平滑先验来获得良好的泛化，但是该方法具有局限性，比如在决策树中，划分N个子空间最少需要n个样本，当样本数小于需要描述的空间个数时就无法工作。

PS：在区间相关性引入额外的数据分布假设，可以让O(k)个样本描述O(2^k)的区间

18)流行和流形学习：这是一个专门的研究领域，书上提到流形学习主要是基于一个假设：机器学习中，感兴趣的输入只分布在包含少量点的子集构成的一组流形中，而其他绝大部分输入都是无效的。学习函数中感兴趣输出的变动只位于流形中的方向，或者感兴趣的变动只发生在我们从一个流形移动到另一个流形的时候。
支持这个假设主要来源于两类观测结果：①我们随机的为一副图像的每个像素赋予一个值，它出现一副有意义的图像的概率几乎为0，同样我们每次随机抽取一个字母，它能组成一句话或者一篇文章的概率几乎为0；②人脸图像的流形不太可能连接到猫脸图像的流形。具体关于流形的直观理解，参见http://blog.pluskid.org/?p=533

0 0