贝叶斯线性回归（一）

来源：互联网发布：淘宝店现在卖什么好卖编辑：程序博客网时间：2024/05/01 13:49

前段时间看完支持向量机（SVM），这两天在看相关向量机（RVM）。不同于SVM，RVM用贝叶斯的方法来解决有监督学习中经典问题回归和分类。同时，RVM还保留了SVM的一些特性，但是RVM的模型更为简单，对于同样的测试集似乎比SVM要快一点。关于更多SVM和RVM的比较是今后的任务，现在主要介绍下RVM的基本思想和原理。

SVM是从二元分类问题发展开来的，而RVM是从回归问题扩展开来的。因此，在正式介绍RVM之前，想讲讲贝叶斯线性回归。

观察值集合{x_n}，n=1, 2, ... , N，x_i是维度为D的向量，以及相应的目标值集合{t_n}，组成了测试集。需要构造一个判别函数，对于一个新的输入x来预测它的目标值t。回归模型就是构造了一个从x到t的映射关系：

$/small /dpi{100} y(/mathbf{x}, /mathbf{w}) = w_{0} + /sum_{j=1}^{M-1}w_{j}/phi _{j}(/mathbf{x})$

其中 $/phi _{j}(/mathbf{x})$ 为基函数，基函数是已知的，有多种形式可以选择。x是维度为D的向量，表示测试集中的观察值。w是维度M的向量，是我们要求的参数，这M个参数确定了，从x到t的映射也就确定了。当然还需要确定基函数的形式和M的大小，这就涉及到模型选择的问题，假设这些都是事先确定好的。通过测试集{x_n}和{t_n}来求M个参数w，就是一个训练的过程。

最大释然概率（Maximum likelihood）可以求解这个回归问题，最后其实转化为一个最小二乘问题。不过现在我们用贝叶斯的方法，通过最大后验概率来解这个问题。

后验概率 = 释然概率 x 先验概率，也就是p(w|t) = p(t|w) p(w) 这是基本的贝叶斯思想。很多随机变量的概率分布都可以近似地用高斯分布来描述，这里w和t的概率分布都可以用多维高斯分布来模拟。首先确定先验概率p(w)，先验概率是均值为0的高斯概率： p(w|a) = N(w|0, a^-1I)，其中a是一个参数，它控制了高斯分布的精度，需要我们确定。不使用一般性的高斯分布，是为了简化问题，否则要求的未知数太多。通常对于一个假设测试集中的目标值{t_n}是通过判别函数y(x, w)的值加上高斯噪声得到的，那么对于一个目标值，它服从一个均值为y(x, w)的高斯分布：p(t|x, w, B) = N(t|y(x, w), B^-1)。对于整个目标值集合{t_n}，假设每个目标值都是独立同分布的，那么由乘法定则得到：

$/small /dpi{100} p(t|X,w,/beta ) = /prod_{n=1}^{N}N(t_{n}|w^{T}/phi (x_{n}), /beta ^{-1})$

B也是要求的参数。这样实验概率分布p(t|w)也得到了。后验概率是释然概率和先验概率的乘积，因此后验概率的分布也满足高斯分布。参数w为使后验概率最大时的值，一般的做法是对后验概率取对数，然后转为释然概率和先验概率的对数和。最后我们会发现，还是要求解一个线性最小二乘问题，和最大释然概率得到的结果一样，只不过在系数上有些差别。求解最小二乘问题，已有很多种方法，比如比较常用的LM算法（http://www.ics.forth.gr/~lourakis/levmar/），LM算法可以解决更一般性的非线性最小二乘问题。

之所以称之为贝叶斯线性回归，是因为虽然对于x来说，y(x, w)并不是线性的，但是x是已知的，对于未知的w，y(x, w)显然是线性的。还剩下一个问题求解两个高斯分布的参数a和B，这将在下一篇文章中做介绍。