Andrew Ng公开课学习笔记——均方误差损失函数的概率解释

来源:互联网 发布:js小球碰撞原理 编辑:程序博客网 时间:2024/05/16 19:03

回顾

回想一下线性回归模型中的几个公式:

(xi,yi)i th training set
hθ(x(i))=j=0nθjx(i)j=θTx,   x0=1
J(θ)=12i=1m(hθ(x(i))y(i))2
θ=(XTX)1XTy

  大家对这几个公式肯定不陌生了,这里从概率角度解释为什么选择least square而不是差值的绝对值或者四次方等等作为损失函数。

概率解释

  首先对最小二乘赋予概率意义

Assume:  y(i)=θTx(i)+ε(i)

ε(i)是误差项,可把ε(i)当做未建模的特征的捕捉,比如房间有多少个壁炉,有无花园等,也可当做随机噪声。
Assume:  ε(i)N(0,σ2),猜想误差项服从均值为0,方差为σ2的高斯分布。为什么可以把误差项建模成服从高斯分布的随机变量呢?有两个原因:

  1. 便于进行数学处理
  2. 更合理。中心极限定律告诉我们许多独立变量之和趋向于服从高斯分布,如果误差是由许多效应共同导致的,例如:卖家的情绪,买家的情绪,房子是否有花园等等。如果所有这些点是独立的,那么根据中心极限定律,这些效应的总和接近于服从高斯分布。

误差项ε(i)的概率密度函数为

p(ϵ(i))=12πσexp(ϵ(i))22σ2

那么估计条件概率p(y|x;θ)也服从高斯分布
p(y(i)|x(i);θ)=12πσexp(y(i)θTx(i))22σ2

注意,中间的分号表示θ并不是随机变量,而是具体值。所以给定样本x(i)和参数θ后,y(i)|x(i);θ服从均值为θTx(i),方差为σ2个高斯分布。
  现在我们已经知道条件概率的分布情况了,下面我们要做的是找到最合适的θ,使得模型预测的结果最符合给定的y。极大似然估计刚好解决这类问题。回想一下极大似然估计:利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值的一种方法。
θ的似然函数为
L(θ)=L(θ;X,y)=p(y|X;θ)

注意到所有的误差项ε(i)是独立的,那么似然函数可以写成
L(θ)=i=1mp(y(i)|x(i);θ)=i=1m12πσexp(y(i)θTx(i))22σ2

  极大似然准则告诉我们:应该选择能使条件概率尽可能大的参数θ,也就是最大化θ的似然函数L(θ)。用对数简化似然函数中的连乘项,得到对数似然函数:
l(θ)=logL(θ)=logi=1m12πσexp(y(i)θTx(i))22σ2=i=1mlog12πσexp(y(i)θTx(i))22σ2=mlog12πσ1σ212i=1m(y(i)θTx(i))2

因此最大化l(θ)和最小化均方误差是等价的。这里σ对何时取最小值无影响。

总结

  我们的目的是让条件概率p(y|x;θ)尽可能大,越大说明我们预测过程受误差影响越小,那么预测越准确。因为ε(i)服从均值为0的高斯分布,所以当ε(i)接近0时,p(y(i)|x(i);θ)=p(ε(i))就越接近最大值12πσ

阅读全文
0 0
原创粉丝点击