Stanford机器学习__Lecture notes CS229. Linear Regression(2)

来源:互联网 发布:古代军官知乎 编辑:程序博客网 时间:2024/05/16 08:40

Stanford机器学习__Lecture notes CS229. Linear Regression(1)
我们之前用简单最小二乘法解决了简单线性回归的问题,那么我们为什么选择最小二乘法作为目标函数,为什么要让模型的预测数据与实际数据之差的平方而不是绝对值和最小来优化模型参数?


最小二乘法的概率解释(Probabilistic interpretation)

假设:

我们知道,大部分模型都是理想状态下的,几乎不可能做到对现实数据的完全拟合,不可避免得会有一些我们没有注意到的变量或者噪音在影响着着真实值。

第一个假设:
对于每一个样例(x(i),y(i)),特征值x和目标值y的关系可以表示成:(其中,ε(i) 表示线性模型与目标值的误差。)
y(i) = ӨTx(i) + ε(i)

第二个假设:
ε(i)服从正态分布,即:
ε(i) ~ N(0, σ2)

只要你观察的系统里,各种对象之间关联很弱,那么他们的总和平均表现,根据中心极限定律,就是高斯或者近高斯的。
根据这个假设我们可以得到ε(i)的概率密度函数:
这里写图片描述
进一步我们可以得到:
在给定x(i)并且参数为θ的情况下,y(i)的概率密度:
这里写图片描述
第三个假设:
考虑到样本的提取对也是在同一模式下独立得到的,所以我们假设误差ε(i) ,也是IID(独立同分布,Independent Identical Distribution)。

极大似然估计

统计学中,似然函数是一种关于统计模型参数的函数。给定输出(X, Y)时,关于参数θ的似然函数L(θ) = L(θ; X, Y)(在数值上)等于给定x(i)并且参数为θ后变量Y的概率:
这里写图片描述
简单来说,最大似然估计,就是利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值。

概率与似然性的区别:
概率用于在已知一些参数的情况下,预测接下来的观测所得到的结果,而似然性 则是用于在已知某些观测所得到的结果时,对有关事物的性质的参数进行估计。找到使得数据集出现的概率最大时的参数,就称为极大似然估计

为简化计算,上式取log对数后,可得下式:
这里写图片描述

所以,最大化L(θ) 等同于最小化:
这里写图片描述

所以,之前讲的一般的最小二乘法实际上是在假设误差项满足高斯分布且独立同分布的情况下,使似然性最大化。

Stanford机器学习__Lecture notes CS229. Linear Regression(1)
Stanford机器学习__Lecture notes CS229. Linear Regression(3)
参考博客:
http://blog.csdn.net/v1_vivian/article/details/52006127
http://my.oschina.net/keyven/blog/526010

0 0