Andrew Ng公开课学习笔记——均方误差损失函数的概率解释

来源：互联网发布：js小球碰撞原理编辑：程序博客网时间：2024/05/16 19:03

回顾

回想一下线性回归模型中的几个公式：

(x i, y i) — i t h t r a i n i n g s e t

h θ (x (i)) = \sum j = 0 n θ j x (i) j = θ T x, x 0 = 1

J (θ) = 1 2 \sum i = 1 m (h θ (x (i)) - y (i)) 2

θ = (X T X) - 1 X T y

大家对这几个公式肯定不陌生了，这里从概率角度解释为什么选择least square而不是差值的绝对值或者四次方等等作为损失函数。

首先对最小二乘赋予概率意义

A s s u m e : y (i) = θ T x (i) + ε (i)

ε(i)是误差项，可把

ε(i)当做未建模的特征的捕捉，比如房间有多少个壁炉，有无花园等，也可当做随机噪声。

Assume: ε(i)∼N(0,σ2)，猜想误差项服从均值为0，方差为

σ2的高斯分布。为什么可以把误差项建模成服从高斯分布的随机变量呢？有两个原因：

便于进行数学处理
更合理。中心极限定律告诉我们许多独立变量之和趋向于服从高斯分布，如果误差是由许多效应共同导致的，例如：卖家的情绪，买家的情绪，房子是否有花园等等。如果所有这些点是独立的，那么根据中心极限定律，这些效应的总和接近于服从高斯分布。

误差项ε(i)的概率密度函数为

p (ϵ (i)) = 1 2 π - - \sqrt σ e x p ⎛ ⎝ ⎜ ⎜ - ( ϵ ( i ) ) 2 2 σ 2 ⎞ ⎠ ⎟ ⎟

那么估计条件概率

p(y|x;θ)也服从高斯分布

p (y (i) | x (i); θ) = 1 2 π - - \sqrt σ e x p ⎛ ⎝ ⎜ ⎜ - ( y ( i ) - θ T x ( i ) ) 2 2 σ 2 ⎞ ⎠ ⎟ ⎟

注意，中间的分号表示

θ并不是随机变量，而是具体值。所以给定样本

x(i)和参数

θ后，

y(i)|x(i);θ服从均值为

θTx(i)，方差为

σ2个高斯分布。
现在我们已经知道条件概率的分布情况了，下面我们要做的是找到最合适的

θ，使得模型预测的结果最符合给定的

y。极大似然估计刚好解决这类问题。回想一下极大似然估计：利用已知的样本结果，反推最有可能（最大概率）导致这样结果的参数值的一种方法。

θ的似然函数为

L (θ) = L (θ; X, y) = p (y | X; θ)

注意到所有的误差项

ε(i)是独立的，那么似然函数可以写成

L (θ) = \prod i = 1 m p (y (i) | x (i); θ) = \prod i = 1 m 1 2 π - - \sqrt σ e x p ⎛ ⎝ ⎜ ⎜ - ( y ( i ) - θ T x ( i ) ) 2 2 σ 2 ⎞ ⎠ ⎟ ⎟

极大似然准则告诉我们：应该选择能使条件概率尽可能大的参数

θ，也就是最大化

θ的似然函数

L(θ)。用对数简化似然函数中的连乘项，得到对数似然函数：

l (θ) = log L (θ) = log \prod i = 1 m 1 2 π - - \sqrt σ e x p ⎛ ⎝ ⎜ ⎜ - ( y ( i ) - θ T x ( i ) ) 2 2 σ 2 ⎞ ⎠ ⎟ ⎟ = \sum i = 1 m log 1 2 π - - \sqrt σ e x p ⎛ ⎝ ⎜ ⎜ - ( y ( i ) - θ T x ( i ) ) 2 2 σ 2 ⎞ ⎠ ⎟ ⎟ = m log 1 2 π - - \sqrt σ - 1 σ 2 \cdot 1 2 \sum i = 1 m (y (i) - θ T x (i)) 2

因此最大化

l(θ)和最小化均方误差是等价的。这里

σ对何时取最小值无影响。

我们的目的是让条件概率p(y|x;θ)尽可能大，越大说明我们预测过程受误差影响越小,那么预测越准确。因为ε(i)服从均值为0的高斯分布，所以当ε(i)接近0时，p(y(i)|x(i);θ)=p(ε(i))就越接近最大值12π√σ。

阅读全文

0 0