PRML笔记之INTRODUCTION

来源：互联网发布：淘宝几种付款方式编辑：程序博客网时间：2024/05/04 05:32

一、引子

机器学习与传统的计算机算法区别就在一个“学习”上——让计算机程序脱离程序员的预设，通过自己学习来解决问题。

本章从手写数字识别（属于监督学习的范畴）的例子开始，引出诸多贯穿全书的概念和符号。

怎么使用机器学习的方法来解决手写数字识别的问题？通俗地说，就是要求你设计一个机器人（开始的时候的机器人还很sb）。然后你手写一个数字，比如说0，教机器人说：“这玩意儿是0。”；然后你又写了一个3，再教机器人这是3；然后你又写，又教；又写，又教……重复N遍之后，你再手写一个数字，机器人自己就能认出它是几，这时候机器人就会觉得你很sb了。

从你觉得机器人sb到机器人觉得你sb的过程涵括了以下两个概念：

trainning set：就是你那些手书，对应课本上的就是数字图片集合。形式化表示为，其中每个x代表一个图片向量。

target vector：就是你教机器人的东西，对应课本上就是数字图片对应的数字。

generalization：我们的最终目的就是让机器人认识新的手写数字，但是我们获得的训练数据往往是有限的，比如上例中，训练数据只有你自己的笔迹，这就要求我们设计的机器人具有泛化能力，也就是使用有限的数据训练机器人后，机器人能识别其他人包括你自己的手书。

下面书中提到了监督学习、费监督学习、强化学习等概念。较为简单。

二、多项式回归问题

2.1多项式回归问题的非概率解释

数据：synthetically generated data

->为什么要使用synthetically generated data？

我们认为现实生活中的数据隐藏着潜在的规律，但具体来说每个数据个体又会受到随机噪声的干扰。而书中synthetically generated data可以很好的模拟现实数据的这种状态。

方法：多项式曲线拟合（Polynomial Curve Fitting）

使用多项式来拟合数据，并使用一个error function来训练多项式中的参数。但这样会出现过拟合问题，所以后面加入了regularization term来减轻这个问题。这里有几个疑问，为什么要用那样一个error function？为什么加入regularization term就会减轻过拟合问题？这就要用到概率论和贝叶斯理论来解释。

2.2多项式回归问题的概率解释

最大似然方法：

最大似然的思想是，求一个参数，使观测到的数据出现的概率最大。假设给定一个新的x，它对应的t是由拟合函数y(x,w)加上一个高斯噪声得到的，即 t=y(x,w)+e。那么t的分布则为，因为数据时独立同分布的，所以就可以用最大似然函数法求解参数w。这样得到的结果与前面使用error function 的方法是一致的，即最大似然就是前面error function的概率解释。这种方法存在过拟问题，课本上用了抛硬币的例子做了直观解释。

MAP：

由于最大似然法存在过拟合问题，所以我们想到用“更贝叶斯(more Bayesian)”的方法来求解w。这里我们对参数w有一个先验知识，就像抛硬币问题，我们预先知道，正反面出现的概率大约都是0.5,，而这里某个w出现的概率是p(w)，称为w的先验分布。有了先验就可以获得w的后验，让w的后验最大，可求出w的解。这样得到的结果与前文中加入regularization term的结果是一致的。但这还不是完全的贝叶斯方法，因为此处w仍旧是一个参数，也就是说模型仍旧是固定的（即多项式中x的阶或者说w的个数是固定的）。

贝叶斯方法：

无论是最大似然还是MAP都是获得w的一个点估计，而我们最终的目的是得到预测值t的分布即p(t|x,x,t)，此处预测值t依赖于新输入的x以及我们已有的观测值x和其对应的t。而此分布可以用加法和乘法公式获得，即p(t|x,x,t) = ∫ p(t|x,w)p(w|x,t)dw。然后我们可以使用evidence approximation方法求解其中的超参数（hyperparameter），具体方法在第三章会讲到。贝叶斯方法的优点就是在训练超参数的过程中，会自动选择模型。

三、决策阶段

上面我们求出了诸多概率，这些概率有什么用呢？对于新的x，我们对于其对应的t取值有不确定性，所以在推理阶段我们使用概率来表示这个不确定性，然后在决策阶段使用这个概率来进行最优决策。

下面提到了解决决策问题的三个模型——生成模型（generative models）、判别模型（discriminative models）、判别函数（discriminative function），判别函数很容易理解。前两种模型的区别网上有一些解释——What is the difference between a Generative and Discriminative Algorithm?

其他问题

M的选择？

不同的M即不同的模型（model），怎样选择最优的M即最优的模型，这涉及到本书一个重要的概念——model selection or model comparison。我们期望模型可以在训练中自动选择，这要用到本书最精髓的理论——贝叶斯理论，此理论将于第三章和第四章详细讲述。

p(D|w)在频率论与贝叶斯理论中的不同？

频率论中，w是一个参数，意即其值是固定的，但我们不知道，就像一个方程中的x，我们通过最大化 p(D|w)的方法来求得w的值。

贝叶斯理论中，w是一个变量，意即w可取任意值，但我们会对每个可能的w的值给出一个概率，来表示我们对w取这个值的不确定性是多少。

这个问题初学时较难理解，学习完第三、四章时基本可以理解，学习过程中可以参考《模式识别》相关内容。

贝叶斯理论应用问题？

由于贝叶斯方法通常需要在整个参数域做积分，所以有时候是难以计算的。但Markov chain Monte Carlo、variational Bayes、expectation propagation等方法打开了进入贝叶斯实战领域的大门。