Multivariate Linear Regression的参数估计

来源：互联网发布：非农就业数据原因编辑：程序博客网时间：2024/04/29 16:47

多元线性回归的表现形式是

h θ (x) = y = θ 0 + θ 1 x 1 + θ 2 x 2 + . . . + θ n x n (1)

其中x1...xn是n个变量，θ0...θn是n+1个参数。h是hypothesis的简称。如果定义x0=1，(1)式可以变为(2)式：

h θ (x) = y = θ 0 x 0 + θ 1 x 1 + θ 2 x 2 + . . . + θ n x n (2)

其中

x0=1.

令：

X = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ x 0 x 1 ⋮ x n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥, Θ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ θ 0 θ 1 ⋮ θ n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥

(2)式可简记为(3)式：

h θ (x) = Θ T X (3)

例如下表，我们要根据房屋属性预测房屋价格。那么在该例中，一共有4个属性，分别是Size, Number of bedrooms, Number of floors, Age of home，表示为x1,x2,x3,x4. Price是要预测的值，即y，这里表示为hθ(x).

上表中有很多行，每一行称为一个训练样本(training example/sample). 为方便描述，定义以下符号：
n: 属性数量
m: 训练样本数量
x(i): 第i个训练样本的属性
x(i)j: 第i个训练样本的第j个属性

从(3)式可知，如果我们知道了参数矩阵ΘT的每一个值，就可以用方程(3)来预测未知样本的值。如何求得ΘT？机器学习中的一个重要任务就是估计ΘT. 足够好的ΘT必定会使得预测值无限接近于真实值，如果设计一个关于ΘT的函数用来表示预测值与真实值之间的差异，那么求得一个足够小的差异，就可以解出ΘT，这个函数通常成为代价函数（cost function），简记为J(θ).

代价函数及其参数的估计

多元线性回归方程的代价函数定义如下：

J (θ 0, θ 1, . . ., θ n) = 1 2 m \sum i = 1 m (h θ (x (i)) - y (i)) 2 (4)

其中

hθ(x(i))是预测值，

y(i)是真实值。特意在右项乘以

12m是为了之后计算方便（求极值需求导，可约去）。代价函数的直观理解是若

J(θ)越小，表示预测值与真实值之间的差异越小，一定程度上说明我们的假设

hθ(x)比较好；反之差异越大，

hθ(x)不够好。

梯度下降法估计参数

估计θ (本文中θ=ΘT)的本质是在代价函数J(θ)取最小值（局部最小值）的情况下θ的取值。梯度下降（Gradient descent）法估计参数就是不断对每一个θi求偏导，得到新的参数θ∗i，迭代一定次数或新的参数θ∗i与上一个参数相比不再变化或变化很小时，即求得θ.

梯度下降法的过程描述：

Repeat:

θ j : = θ j - α \partial \partial θ j J (θ 0, θ 1, . . ., θ n)

⇒θj:=θj−α1m∑mi=1(hθ(x(i))−y(i))x(i)j(5)

以上过程要同时求出所有的θ0,...,θn并同时更新所有的θ0,...,θn. 上式中的α称为learning rate，它控制了学习的速率。当α赋值很大时，上述迭代过程有可能不收敛；但当α赋值太小时，对大数据量而言，收敛过程可能会很慢。理想的α赋值会使的θj会随着迭代次数的增大而逐步减小（每一个新的迭代θj的值都会比上一次迭代周期中的值小。

迭代终止的条件是：
达到指定的迭代的次数，或者
新的θj与上次的θj差值在某个阈值之内

正规方程求解参数

正规方程（Normal Equation）求解参数是解析法求解，不需要迭代过程。
过程參考正规方程推导（我不想輸公式了）

代价函数的概率解释与推导

上面给出了代价函数的定义与参数估计的过程。代价函数的定义如(4)式，直觉上很好理解，但为何代价函数要定义成这个样子？下面给出一个概率上的解释。

文章最开始给出了线性回归模型的表现形式，如(1)式。更准确的写法应该是：

h θ (x) = y = θ 0 + θ 1 x 1 + θ 2 x 2 + . . . + θ n x n + ε (1')

多出来的

ε是误差项，表示线性回归的假设方程包含未知的误差和随机噪声。通常假设误差项是独立同分布（iid, Independent Identically Distribution），且服从均值为0，方差为

σ2的正态分布。假设误差项服从正态分布的原因是：
1. 数学上处理的便利
2. 根据中心极限定理，独立的随机变量的和，即多种随机误差的累积，其总的影响是接近正态分布的。实际应用中，诸多独立随机变量的分布是服从正态分布的。

因此，对于每一个训练样本，其误差ε(i)的密度函数为：

p (ε (i)) = 1 2 π ‾ ‾ ‾ \sqrt σ e x p (- ( ε ( i ) ) 2 2 σ 2) (6)

再由(1’)式和(3)式，改写成机器学习中常见的条件概率形式，有：

p (y (i) | x (i); θ) = 1 2 π ‾ ‾ ‾ \sqrt σ e x p (- ( y ( i ) - Θ T x ( i ) ) 2 2 σ 2) (7)

简记为：

p (y (i) | x (i); θ) \sim N (Θ T x (i), σ 2) (8)

上式表示，若给定参数

θ，在已知随机变量（训练样本）为

x(i)的情况下，

y(i)的概率密度分布。

注意到x(i)是iid，对所有随机变量（训练样本）x(i)的联合概率密度可以写成连乘的形式：

L (θ) = p (y | X; Θ) = \prod i = 1 m p (y (i) | x (i); θ)

⇒L(θ)=∏mi=112π√σexp(−(y(i)−ΘTx(i))22σ2)(9)

L(θ)称为似然（likelihood）函数。注意到似然函数是关于参数θ的函数，求解参数θ的过程称为参数的极大似然估计。含义是找到一个θ，使得L(θ)的值最大。显然，对L(θ)求θ的导数并令该导数等于0，此时求得的θ即为最小值或极小值（对于单变量的线性回归方程，可以求得最小值，但是对于多变量线性回归，一般求得极小值）。

对(9)式两边取对数，将连乘化为求和：

l (θ) = log L (θ) = m log (1 2 π ‾ ‾ ‾ \sqrt σ - 1 σ 2 1 2 \sum i = 1 m (y (i) - Θ T x (i)) 2) (10)

显然，要使得

l(θ)最小，则上式中的

∑mi=1(y(i)−ΘTx(i))2要最大。将该项中的

y(i)替换为

hθ(x(i))，

ΘTx(i)替换为

y(i)即得(4)式中的形式。

线性回归的规范化

拿到training data，提取属性后，构造(4)式作为代价函数，通过梯度下降或正规方程可以得到回归方程的参数，将参数代入(2)式即可预测未知数据。但是如果数据的属性很多，例如一个语料库（corpus）用了2000个不同的单词，将这些单词全部作为线性回归方程的输入，那么属性数量n=2000，最后需要求解的参数θ数量为2001个。若以单词是否出现作为属性值，即某篇文章中，一个单词出现记为1，反之记为0，那么属性矩阵X将是一个十分稀疏的矩阵。