对线性回归中cost函数选取最小二乘原因理解

来源：互联网发布：mac cd命令进入文件夹编辑：程序博客网时间：2024/06/07 08:03

首先，我们来考虑数据拟合的实际状况：当我们寻找模型来拟合数据时，偏差是不可避免的存在的。

对于线性回归，即假设定义的自变量与因变量之间存在线性关系。

比如对于如下数据：

我们假定存在一条直线能尽可能拟合所有数据， $y=\omega x+b+\varepsilon$ ,其中 $\varepsilon$ 表示噪声。也就是因为噪声，所以实际的数据分布会与预期不一致，即散落在直线附近。

在线性回归中，我们假设噪声的分布满足正态分布（即高斯分布）。

现在，我们已经知道噪声（偏差）符合正态分布，那么下一步就是理解另外一种函数——极大似然函数。

在模型拟合中，极大似然函数的本质就是让我们用来拟合数据的模型与每一个数据点的更为相符，这就要求偏差的大小应该是基本一致，或者说符合正态分布，那么偏差大小基本一致与不一致怎么区别呢？

这里我们用偏差出现的概率相乘的大小来表示。因为概率大小都在0到1之间并符合期望为x的正态分布，两个偏差值越接近中心期望x，乘积越大。极大似然函数就是用来表示这一关系的，当然在这里联乘的形式可以取对数改为概率求和，如果你还有印象的话，正态分布的概率密度函数是欧拉数的幂函数形式，而幂中有一个负号有一个平方，平方就是偏差的平方，负号则将原来求最大值变成了求最小值，这时候反过来看这个极大似然函数的求解其实就是最小二乘法。

好了，大概说明白了为什么用平方和了，本质上就是正态分布的概率密度函数所致，那么为什么不是绝对值的和呢？简单说绝对值的和无法转化为一个可解的寻优问题，既然无法寻优如何得到恰当的参数估计呢？就这么简单。

学过线性代数的大概都知道经典的最小二乘方法来做线性回归。问题描述是：给定平面上 N 个点，（这里不妨假设我们想用一条直线来拟合这些点——回归可以看作是拟合的特例，即允许误差的拟合），找出一条最佳描述了这些点的直线。
一个接踵而来的问题就是，我们如何定义最佳？我们设每个点的坐标为 (Xi, Yi) 。如果直线为 y = f(x) 。那么 (Xi, Yi) 跟直线对这个点的“预测”：(Xi, f(Xi)) 就相差了一个 ΔYi = |Yi – f(Xi)| 。最小二乘就是说寻找直线使得 (ΔY1)^2 + (ΔY2)^2 + .. （即误差的平方和）最小，至于为什么是误差的平方和而不是误差的绝对值和，统计学上也没有什么好的解释。然而贝叶斯方法却能对此提供一个完美的解释。
我们假设直线对于坐标 Xi 给出的预测 f(Xi) 是最靠谱的预测，所有纵坐标偏离 f(Xi) 的那些数据点都含有噪音，是噪音使得它们偏离了完美的一条直线，一个合理的假设就是偏离路线越远的概率越小，具体小多少，可以用一个正态分布曲线来模拟，这个分布曲线以直线对 Xi 给出的预测 f(Xi) 为中心，实际纵坐标为 Yi 的点 (Xi, Yi) 发生的概率就正比于 EXP[-(ΔYi)^2]。（EXP(..) 代表以常数 e 为底的多少次方）。
现在我们回到问题的贝叶斯方面，我们要想最大化的后验概率是：
P(h|D) ∝ P(h) * P(D|h)
又见贝叶斯！这里 h 就是指一条特定的直线，D 就是指这 N 个数据点。我们需要寻找一条直线 h 使得 P(h) * P(D|h) 最大。很显然，P(h) 这个先验概率是均匀的，因为哪条直线也不比另一条更优越。所以我们只需要看 P(D|h) 这一项，这一项是指这条直线生成这些数据点的概率，刚才说过了，生成数据点 (Xi, Yi) 的概率为 EXP[-(ΔYi)^2] 乘以一个常数。而 P(D|h) = P(d1|h) * P(d2|h) * .. 即假设各个数据点是独立生成的，所以可以把每个概率乘起来。于是生成 N 个数据点的概率为 EXP[-(ΔY1)^2] * EXP[-(ΔY2)^2] * EXP[-(ΔY3)^2] * .. = EXP{-[(ΔY1)^2 + (ΔY2)^2 + (ΔY3)^2 + ..]} 最大化这个概率就是要最小化 (ΔY1)^2 + (ΔY2)^2 + (ΔY3)^2 + .. 。熟悉这个式子吗？

以上摘自数学之美-番外篇，对于一个数据，Yi与 $h_{\Theta }(x)$ 的分布符合正态分布，以 $h_{\Theta }(x)$ 为中心，Yi越远离中心，取得的概率越小，对单个数据来说，就是使 $e^{-\frac{(y_{i}-h_{\Theta }x)^{2}}{2}}$ 尽量大，而各个点独立生成，都要求贴近直线，即要求 $e^{-\frac{(y_{i}-h_{\Theta }x)^{2}}{2}}$ 相乘联合概率最大，即对于 $e^{-x}$ 模型，使 $\sum \frac{(y_{i}-h_{\Theta }x)^{2}}{2}$ 最小，当所有点都在直线上时，概率为1。

0 0