从统计学的角度看线性回归

来源:互联网 发布:南方数据传输软件下载 编辑:程序博客网 时间:2024/06/05 09:00

线性回归是机器学习中常用的一种监督学习方法。常被用于选择重要特征和构造基学习器。本文将用统计学中极大似然估计和贝叶斯统计的方法推导线性回归及正则化。

极大似然估计法

极大似然估计的核心思想是找出一组参数值,使得在该参数值下,训练样本被观察到的概率最大。
在以下推导中,w 为回归系数,w=(w0,w1,...,wM1)T(tn,xn) 为第n个样本。全体样本(t,X)=(t1,x1),...,(tN,xN),N为样本个数。
假设tn=wTxn+ϵ,ϵN(0,σ2),即tn 服从正太分布,均值为wTxn,方差为σ2
则所有训练样本 t 的概率分布函数p(t|w,σ2,X)=n=1NN(tn|wTxn,σ2)
我们的目的是找出最佳回归系数w,使得p(t|w,σ2,X) 最大。最常用的解法就是求梯度找极值点。但是直接求梯度会很复杂,可以先取对数使得连乘变连加再求梯度。这么做的另一个好处是正太分布函数中含有指数函数,求对数后刚好消掉。而且对数函数的单调性保证了变换前后有相同的最优解。
lnp(t|w,σ2)=n=1NlnN(tn|wTxn,σ2)
=n=1Nln(12πσ2e12σ2(tnwTxn)2)
=12ln(2π)lnσ12σ2(tXw)T(tXw)

ED(w)=12(tXw)T(tXw)

最大化lnp(t|w,σ2)相当于最小化ED(w)。在机器学习中,ED(w)被称为损失函数。最优解 w=argminw{ED(w)}
求解:
ED(w)w=XT(tXw)=0

得:

w=(XTX)1XTt

检验w是否为最优解:

2ED(w)w2=XTX

XTX 为正定矩阵的时候,w=(XTX)1XTt 为最优解。

有的时候为了防止过拟合,我们还会在损失函数中加入正则项(Regularizer),比如L2范数Ew(w)=12wTw

E(w)=ED(w)+λEw(w)=12(tXw)T(tXw)+12λwTw

其中λ为正则化系数,λ>0
再次求解w:
E(w)w=XT(tXw)+λw=0

得:
w=(XTX+λI)1XTt

检验w是否为最优解:
2ED(w)w2=XTX+λI

故当XTX+λI为正定矩阵(positive definite)时,w为最优解。从上式我们也可以看出,加入正则项能使结果更稳定,因为有时候XTX是非正定的,但是加上λI就变成正定矩阵了。

贝叶斯线性回归

在贝叶斯统计中,有三种概率分布:先验概率(prior),似然概率(likelihood)和后验概率(posterior)。类似之前极大似然估计中,我们假设似然概率:

p(tn|w,σ2)=N(tn|wTxn,σ2)

tn 服从正太分布,均值为wTxn,方差为σ2。故
p(t|w,σ2)=N(t|Xw,σ2I)

以下推导中我们假设σ2已知,所有条件概率p(t|w,σ2)都简写成p(t|w)
先验概率:
p(w)=N(w|m0,S0)

根据贝叶斯公式p(w|t)=p(t|w)p(w)p(t),有:
p(w|t)p(t|w)p(w)
e12σ2(tXw)T(tXw)e12(wm0)TS01((wm0))
e12[wT(1σ2XTX+S01)w2(1σ2tTX+m0TS01)w]

对比高斯分布的分布函数,我们可以发现p(w|t)=N(w|μ,Σ)
其中:

Σ1=1σ2XTX+S01

μ=Σ(1σ2XTt+S01m0)

wMAP=argmaxwp(w|t),即wMAP最大化后验概率(maximum a posterior)。我们知道高斯分布的概率密度最大点为均值点,故wMAP=μ=Σ(1σ2XTt+S01m0)
S0趋向于无穷大时,S01趋于0,则wMAP趋于(XTX)1XTt,也就是之前极大似然估计中得出的最优解。对S0趋于无穷大的直观理解是我们在得到数据前对w=m0这个猜测非常不确定,所以让它的方差无穷大。
另一方面,如果我们令S0=σ2αI,m0=0,即w的先验分布是均值为零,方差为σ2αI的高斯分布,则后验分布的对数:
lnp(w|t)lnp(t|w)+lnp(w)
12σ2(tXw)T(tXw)α2σ2wTw
最大化lnp(w|t) 就相当于最小化E(w)=12(tXw)T(tXw)+α2wTw,即添加了L2正则项的损失函数。由此我们发现贝叶斯线性回归中的先验分布起到了正则化的作用。直观的理解,贝叶斯线性回归中的先验分布和一般线性回归损失函数的正则项都代表了我们对样本真实分布的一种预先认知。

原创粉丝点击