3.机器学习概论（1）--统计学习三大要素

来源：互联网发布：在淘宝当主播怎么赚钱编辑：程序博客网时间：2024/06/16 00:43

目录：机器学习发展历程简单介绍；简单的概念介绍；统计学习三大要素：模型（主要解决模型是什么的问题），策略（选择模型的准则），算法（概念性的描述）

感觉是所有学科的共性：概论部分一般是全书的概括和后期内容的基础，而往往又由于对该领域不熟悉，所以感觉学习概论部分很枯燥乏味又晦涩难懂，此时需要看一些后面的具体内容，再回过头来看概论。这样前前后后反复几次就可以更深入的了解了~概论部分更多是记录基础知识，所以摘抄性内容比较多~

一.前记（仅作为了解）：

机器学习的发展也是经历过一个阶段的，从推理期（让机器具备逻辑推理能力）---》知识期（各种专家系统）---》智能期（可以像人一样去自主学习），其中的研究方法也涉及基于神经网络的“连接主义”（connectionism）学习，基于逻辑表示的“符号主义”（symbolism），还有以决策理论为基础的学习技术以及强化学习技术等也得到发展。目前应用最多的是基于统计学习理论的机器学习和基于神经网络的深度学习。

（1）“统计学习”（statistical learning）的代表性技术是支持向量机（Support Vector Machine）以及更一般的“核方法”（kernel methods）。遵循结构风险最小化原则。

（2）深度学习，在语音，图像等复杂对象应用中，深度学习技术取得优越性能，为机器学习技术走向工程实践带来便利。推动该技术的发展主要有以下三个原因：大数据，计算力（硬件性能提高，集群，云计算，并行计算等），算法。

二.略过的概念：

下面的一些简单概念只是提一下，很好理解，任何一本机器学习的书也都会有介绍。

1.机器学习任务分类：监督学习（有标记信息，也就是知道每个样本对应的真实结果），无监督学习，半监督学习，强化学习

2.输入空间，特征空间（我们通常用一个特征向量表示一个样本，这里涉及一些线性代数的概念），假设空间（模型，带有参数的函数集合）

3.监督学习分为：分类问题（预测值为离散值，比如好瓜还是坏瓜，有没有生病等），回归问题（预测值为连续值，比如房价，股价），标注问题（输入变量与输出变量均为变量序列的预测问题）

4.联合概率分布，条件概率分布，先验概率，后验概率

5.训练集，验证集，测试集

以监督学习为例，看一下简易的示例图：

接下来的问题：我们主要以监督学习为主。

三.统计学习三要素

1.模型。目前机器学习主要分为两大类（有可能说的不太准，只是平常的一种感觉）：统计机器学习和神经网络深度学习。统计机器学习（statictical machine learning）是计算机基于数据构建概率统计模型，并运用概率统计模型对数据进行预测与分析的学科。

整个过程是数据驱动的，我们把输入的数据X和输出的预测值Y都看作是随机变量，他们遵循一定的概率分布（比如正态分布，二项分布）。

我们所谓的模型要么是非概率模型的决策函数：一个函数，输入X，产生输出Y

要么是条件概率分布：在输入X的条件下，输出Y的概率。条件概率就相当于后验概率。

而模型又是带有未知参数的，未知参数可能不止一个，所以我们用参数向量表示：

或者

注：

不同数据集适用于不同的模型，比如做金融的很多都不会用到深度学习，基本上简单的linear regression, lasso, svm, gradient boosting machine等就可以了。计算机的优势在于大规模计算，所以适合大数据集。而目前在自然语言处理（NLP）和计算机视觉（CV，以图像和视频为输入数据）领域，深度学习的作用就很大。

2.策略。

通过上面的介绍，模型（也就是假设空间），是由一个参数向量决定的函数族或者条件概率分布族，我们通过数据驱动出一个最优模型，这个最优模型的选择是基于什么样的准则？这个准则就是策略。这部分就会引入一些比较专业性的术语和公式。

（1）损失函数（Loss Function或者Cost Function）：度量模型一次预测的好坏（预测值和真实标记值之间的差距）。下列公式中，f(X)是预测值，Y是真实值

显而易见，损失函数值越小，模型越好。

（2）风险函数（risk function）或期望损失（expected loss）：度量平均意义上模型预测的好坏，也就是损失函数的期望。

我们的目标是期望损失最小，这里面要用到联合分布，但是联合分布是未知的，无法进行计算。

（3）经验风险（empirical risk）或经验损失（empirical loss）：

我们明显观察到，期望损失Rexp(f)是模型关于联合分布的期望损失，经验风险Remp(f)是模型关于训练样本集的平均损失。根据大数定律，当样本容量N趋于无穷时，Remp(f)趋于期望风险Rexp(f)。自然而然的，我们可以用Remp估计Rexp。

Remp是我们可以根据训练数据来确定的，经验风险最小化策略（empirical risk minimization，ERM）认为，经验风险最小的模型是最优的模型。那我们就要根据训练数据，去求解一个经验风险最小的模型咯~最优问题的求解！！！我觉得这是机器学习的核心！

但是问题又来了，我们说样本容量N趋向于无穷时，大数定律才会起作用，当样本容量小的时候，效果就不太好，会产生“过拟合”（over-fitting）现象，所谓的过拟合就是在训练集上表现的很好，但是在测试集上表现的比较差。结构风险最小化（structural risk minimization，SRM）是为了防止过拟合提出的策略。这部分下篇博客（模型评估与模型选择）再学习~

这里面有一点感受，数学公式和函数是用来刻画事实的，我们要通过函数形态和公式来准确无误的表达事实！而在求解的过程中，会有一些小技巧，比如系数的设置等。

3.算法：通过上面的介绍知道，统计学习问题最终就是归结为最优化问题，统计学习的算法也就是指求解最优化问题的算法，这里通常要用到数值计算的方法求解，保证找到全局最优解。

确定了模型、策略和算法，统计学习方法也就随之确定。我们编程时也是从这三个方面考虑。

阅读全文

1 0