Pattern Recognition and Machine Learning 第三章线性回归模型

来源：互联网发布：软件项目管理案例编辑：程序博客网时间：2024/05/24 07:47

标签：机器学习

线性回归模型

线性，即关于参数的线性函数；回归，表示需要预测的量是连续的。建模后可以对任意未知的变量求出目标量，或者是目标的概率分布以表示结果的不确定性。

线性基函数模型

y (x ⃗, w ⃗) = w 0 + \sum w j ϕ j (x ⃗)

其中

ϕj(x⃗ )为基函数，参数w中有

w0为偏置参数。一般目标式关于x都不是线性的，除非令

ϕj(xi)=xi（其中的系数可以省去，因为可以放在

wj里）。实际中常令基函数为多项式基函数1、高斯基函数、sigmoid基函数、傅里叶基函数等。

在求最大似然的参数时可以发现，偏置参数的取值为

w 0 = t ¯ - \sum j = 1 M - 1 w j ϕ ¯ j

最大似然和最小二乘（平方损失）之间是等价的，都是要使得误差函数

E D (w) = 1 2 \sum n = 1 N {t n - w T ϕ (x n)} 2

最小。还可以从几何投影的角度来解释等价性。解为

β - 1 M L w M L = 1 N \sum n = 1 N {t n - w T M L ϕ (x n)} 2 = (Φ T Φ) - 1 Φ T t

从数据处理的角度看，最好是流水线处理顺序数据，这样每次只要对原有参数进行修正即可得到新的参数。常采用随机/顺序梯度下降法来完成

w (τ + 1) = w (τ) - η \nabla E n

其中

En是误差函数。

为避免过拟合，设置正则化参数使得

E D (w) + λ E W (w)

尽量小，则是在强迫参数收缩，或说是权值衰减。收缩时可以自己设定范数q的大小，但要满足限制

\sum j = 1 M | w j | q \leq η

偏置-方差分解

最大似然方法的局限性在于难以确定λ的值，容易造成过拟合。从频率学的角度以及决策论的相关推论可以得到

期 望 损 失 = 偏 置 2 + 方 差 + 噪 声

偏置反应了多个数据集取平均以后和最优预测的偏差量，方差则反应了数据的集中度（变动幅度），噪声来自于数据本身的不确定性。

λ越大，方差越小，模型比较简单，浪费一些有价值的数据，但偏差较大；反之，

λ越小，方差越大，模型灵活复杂，而偏差较小。由于实际中我们的只有一个观测的数据集，取平均的数据集不够多，因此需要折中选取

λ，使得期望损失最小。

贝叶斯线性回归

可以自动设置模型的复杂程度的自动化方法，避免过拟合和有价值的数据的浪费。

参数分布

利用中间变量w传递输入与输出的关系。认为参数w具有概率分布，存在先验分布，求后验分布。共轭先验

p (w) =  (w | m 0, S 0) = s i m p l y  (w | 0, α - 1 I)

后验

p (w | t) =  (w | m N, S N) = s i m p l y  (w | β S N Φ T t, α I + β Φ T Φ)

最大后验等价于最小化平方和误差加二次正则项，

λ=αβ。每次加入数据集都重新形成参数作为下一轮的先验分布。在⽆穷多个数据点的极限情况下，后验概率分布会变成⼀个Delta函数（冲激函数），表示某参数选取的概率极大。

预测分布

甩开了中间的参数变量，试图直接建立输入与输出的关系。

p (t | t, α, β) = \int p (t | w, β) p (w | t, α, β) d w

从而将w边缘化。但仍旧需要

α,β等表示输出的不确定性。得到的仍是高斯分布

σ 2 N (x) = 1 β + ϕ (x) T S N ϕ (x)

右边第一项表示噪声，在所有位置都是固有的值；第二项则是随距离变化，只有在中心高分布。在原理高斯中心处，只剩下第一项，太过局限，因此后面会用高斯过程避免这个问题。

预测的不确定性依赖于x，并且在数据点的邻域内最⼩；不确定性的程度随着观测到的数据点的增多⽽逐渐减⼩。在后验分布中随机取值，但都不会超过预测取值标准差的范围内。

贝叶斯模型比较

一个模型指的是观测数据D上的概率分布。为了避免模型过于简单或者复杂，这里要解决一个模型选择的问题。贝叶斯用概率表示模型选择的不确定性，分别以混合分布（模型平均）或者模型选择（选择最可能的）来选择最可能的模型。

用一些数据D来比较各种模型Mi

p (M i | D) \propto p (M i) p (D | M i)

其中类似于似然的为证据近似，它边缘化了参数，只留下模型和数据间的关系。这样做的好处是模型可以直接在训练数据上进行比较，而不需要验证集。这使得所有的数据都能够被用于训练，并且避免了交叉验证2当中每个模型要运行多次训练过程的问题。它也让多个复杂度参数可以同时在训练过程中被确定。

先暂时省略对Mi的依赖，估计

p (D) = \int p (D | w) p (w) d w ≃ p (D | w M A P) Δ w 后 验 Δ w 先 验

取对数可得

l n p (D) ≃ l n p (D | w M A P) + l n Δ w 后 验 Δ w 先 验

最后一项为负，则

p(D)<p(D|wMAP)，如果一个模型有M个参数，最后一项还要乘上M，则

p(D)与p(D|wMAP)的差异还将更大。模型越复杂，p(D)越小。这是因为复杂的模型把它的预测概率散布于过多的可能的数据集当中，从而它们当中的每一个赋予的概率都相对较小。

证据近似

经验贝叶斯/第二类最大似然/证据近似方法：首先对参数 w 求积分，得到边缘似然函数，然后通过最大化边缘似然函数，确定超参数的值。

预测分布可以通过对 w, α 和 β 求积分的方法得到,
即

p (t | τ) = \int \int \int p (t | w, β) p (w | τ, α, β) p (α, β | τ) d w d α d β

后验分布 p(α, β | t) 在

α̂ 和β̂ 附近有尖峰则近似为

p (t | τ, α ̂, β ̂) = \int \int \int p (t | w, β ̂) p (w | τ, α ̂, β ̂) d w

对超参数α,β作近似，得到最大化参数α̂ ,β̂ 有两种方法：
1. 对数近似求导
2. 期望最大化(EM)算法

这章用的方法在第一章的例子中已经出现过了，但是更为理论性地证明了参数选取造成了复杂、简单模型的不同。至于证据近似和贝叶斯模型比较里出现的式子，为了说明参数需要适中选取这个道理，也是硬推出了许多公式，然而并不知道有什么用……消去参数就能避免过拟合，也不用管归一化了，这个在第一章的时候倒是没有想到，纯粹觉得预测分布的计算量很大。

由于多项式基函数是幂函数，覆盖了全空间，对于输入空间一个区域的改变将会影响所有其他的区域。因此要分类讨论，把空间分成多个不同区域用不同的函数拟合，即spline函数（条函数）。 ↩
交叉验证优化模型参数，见转载文章 ↩

0 0

Pattern Recognition and Machine Learning 第三章 线性回归模型