机器学习之线性回归

来源：互联网发布：教师网络信息管理平台编辑：程序博客网时间：2024/04/29 19:06

线性回归的函数表示

线性回归就是用线性方程去拟合一组数据, x 的最高阶是1, 用方程可以表示为:

h θ (x) = θ 0 + θ 1 x 1 + \dots + θ n x n

我们令 x0=1 则上式可以改写为:

h (x) = \sum i = 0 n θ i x i = θ T x

既然是拟合的模型, 则肯定会存在不符合该模型的点, 第 i 个点的真实值与模型预测的值之间的差称为误差:

e = h (x (i)) - y (i)

假设总共有 m 个数据点, 则我们定义代价函数为：

J (θ) = 1 2 \sum i = 1 m (h (x (i)) - y (i)) 2

我们的目的是使总的误差最小, 只需求得使 J(θ) 最小的 θ 即可。

那代价函数为什么是这个形式的呢? 我们可以假定目标变量具有如下的形式

y (i) = θ T x (i) + ϵ (i)

其中 ϵi是服从N(0,σ2)的且满足iid的随机噪声, 其概率密度可写作为:

p (ϵ (i)) = 1 2 π - - \sqrt σ e x p (- ( ϵ ( i ) ) 2 2 σ 2)

也即:

p (y (i) | x (i); θ) = 1 2 π - - \sqrt σ e x p (- ( y ( i ) - θ T x ( i ) ) 2 2 σ 2)

因为参数 θ 未知, 我们寻求使满足(xi,yi)可能性最高的 θ 值估计:

L (θ) = \prod i = 1 m p (y (i) | x (i); θ) = \prod i = 1 m 1 2 π - - \sqrt σ e x p (- ( y ( i ) - θ T x ( i ) ) 2 2 σ 2)

为了计算上的方便, 使两边取对数, 则有:

l (θ) = l o g L (θ) = l o g \prod i = 1 m 1 2 π - - \sqrt σ e x p (- ( y ( i ) - θ T x ( i ) ) 2 2 σ 2) = \sum i = 1 m l o g 1 2 π - - \sqrt σ e x p (- ( y ( i ) - θ T x ( i ) ) 2 2 σ 2) = m l o g 1 2 π - - \sqrt σ - 1 σ 2 \cdot 1 2 \sum i = 1 m (y (i) - θ T x (i)) 2

从上面式子的结果可以看出, 我们只须令

1 2 \sum i = 1 m (y (i) - θ T x (i)) 2

取最小值即可. 这便是为什么在线性回归中使用均方误差作为性能度量的一个解释。

由于代价函数 J(θ) 是凸函数, 存在全局最优解.
下面介绍两种方法:

由于梯度是函数下降最快的方向, 因此我们可以重复对 J(θ) 做梯度下降使其收敛到全局最小.
更新 θ 的步骤为:

θ j : = θ j - α \partial \partial θ j J (θ)

其中 α 是学习率.假设现在我们只有一个样本(x,y)来看看如何求:

\partial \partial θ j J (θ) = \partial \partial θ j 1 2 (h (θ) - y) 2 = (h (x) - y) \cdot \partial \partial θ j (h (x) - y) = (h (x) - y) \cdot \partial \partial θ j (θ 0 x 0 + θ 1 x 1 + \dots + θ j x j + \dots + θ n x n - y) = (h (x) - y) x j

根据以上导出的式子可以看出, 对于只有一个数据点的情形, 参数 θ 的更新规则为:

θ j : = θ j + α (y - h (x)) x j

那么考虑所有的 m 个数据点之后的更新式子为:

θ j : = θ j + α 1 m \sum i = 1 m (y (i) - h (x (i))) x (i) j

我们从上面更新 θ 的式子中可以看出, 每更新一个一个参数 θj, 我们都要进行m个样本的求和, 这样如果样本数非常大的话, 是非常消耗计算资源的. 为了避免上述问题, 我们可以只应用一个样本数据对参数进行更新.

θ j : = θ j + α (y i - h (x i)) x i j

注意我们不保证随机梯度下降一定能收敛到全局最小, 但在实践中, 其收敛结果是足够接近最优 θ 的.

J(θ) 写成向量形式可以表示为：

J (θ) = 1 2 \sum i = 1 m (h (x (i)) - y (i)) 2 = 1 2 (X θ - y ⃗) T (X θ - y ⃗)

由于 J(θ) 有全局最优解, 我们令其导数为0可以直接求解最优参数.

\nabla θ J (θ) = \nabla θ (1 2 (X θ - y) T (X θ - y)) = \nabla θ (1 2 (θ T X T - y T) (X θ - y)) = \nabla θ (1 2 (θ T X T X θ - θ T X T y - y T X θ + y T y)) = 1 2 (2 X T X θ - X T y - (y T X) T) = X T X θ - x T y

从而有

θ = (X T X) - 1 X T y

注意这一步的求解需要满足一个隐含的条件：XTX是满秩的或是正定的。

如果 XTX 不满秩，可以在代价函数上计入正则化项：

J' (θ) = 1 2 (X θ - y ⃗) T (X θ - y ⃗) + λ 2 ∥ θ ∥ 2

对该代价函数求导：

\nabla θ J' (θ) = X T X θ - X T y + λ θ

令其为0可得：

θ = (X T X + λ I) - 1 X T y

只要在训练样本的特征数 n<10000 的情况下, 都可以考虑使用正规方程, 因为它不需要选择学习率 α, 不需要一步一步的进行迭代. 而当 n>10000 时, 计算 (XTX)−1 耗费的时间就不容忽视了, 其时间复杂度为 O(n3) , 此时推荐使用梯度下降法进行参数求解.

线性回归可能存在的一个问题是欠拟合，因为它求的是具有最小均方误差的无偏估计，有些方法允许在估计中引入一些偏差，从而降低预测的均方误差。

我们为每个样本点赋予不同的权重，则代价函数可表示为：

J (θ) = 1 2 \sum i = 1 m w (i) (h (x (i)) - y (i)) 2

其中样本权重定义为：

w (i) = exp (- ( x ( i ) - x ) 2 2 τ 2)

参数 τ 控制着权重随预测值 x 与样本 x(i) 的距离衰减速率。

最后求得参数为：

θ = (X T W X) - 1 X T W y

可以看到每次预测 x 的回归值，都要重新计算权系数矩阵 W，也就是说使用局部加权回归时需要储存训练样本，而线性回归则不需要。

0 0