回归-用极大似然估计来解释最小二乘

来源:互联网 发布:威廉姆斯学院 知乎 编辑:程序博客网 时间:2024/06/05 19:43

导语

    这是线性回归的第一篇,后面还有多篇,包括普通最小二乘、梯度下降、牛顿法等知识,本篇主要是阐述最小二乘法损失函数与高斯分布的联系,虽然逻辑回归也是线性回归的一个变种,但它主要是0-1分布,不在本篇讨论之列。

损失函数

    任何一本概率论书在讲线性回归时都会说到一个方法,叫做最小二乘法,这里先给出线性回归的定义式:

y=θTX

这里是一种表达习惯,Xθ都是列向量

    给定一系列样本与观测值,现在来拟合参数θ,那么什么样的参数才算是好的呢?总该有一个判断标准吧,因此,华丽丽的损失函数上场:

J(θ)=12i=1m(hθ(x(i))y(i))2

    这个公式就是大名顶顶的最小二乘建立的目标公式,hθ(x(i))表示的样本x(i)的理论值,y(i)表示的是观测值。这个函数非常便于理解,就是总误差平方和的12,前面的系数只是为了后面计算方便加上的,不会对整体产生影响。
    我们假设观测值与理论值是有误差的,那么我们可以定义如下公式,其中ε(i)表示样本x(i)的误差。
y(i)=θTx(i)+ε(i)

    到这里,损失函数就算是定义完成了,也许有人问了, 为啥是“理论值-观测值”的平方,绝对值不行吗?4次方不行吗?ok,这个问题下面解释。

正态分布与极大似然估计

    关于正态分布本身,这里不做过多解释,这里假设读者对于正态分布已经有一定的了解,正态分布是非常常见的一种分布,这里假设误差是符合高斯分布的,且期望为0,原理可参见中心极限定理。误差既然符合高斯分布,那么我们可写出它的概率公式:

p(ε(i))=12πσexp(ε(i)22σ2)

     由上一节的误差公式可看出,ε(i)=y(i)θTx(i),所以
p(y(i))=p(θTx(i)+ε(i))=12πσexp((y(i)θTx(i))22σ2)

    现在总共有m个样本,那么根据极大似然估计,列出似然函数
L(θ)=i=1mp(y(i))=i=1m12πσexp((y(i)θTx(i))22σ2)

    对似然函数求对数,得:
logL(θ)=i=1m12πσexp((y(i)θTx(i))22σ2)=mlog˙12πσ1σ212i=1m(y(i)θTx(i))2

    推到这里,想要让似然函数取得最大值,则损失函数必须要取得最小值,最小二乘法得到解释。

0 0
原创粉丝点击