MachineLearning-监督学习之线性回归

来源:互联网 发布:网络选修课 编辑:程序博客网 时间:2024/06/05 03:53

机器学习问题定义

一个程序被认为能从经验 E 中学习,解决任务 T,达到性能度量值
P,当且仅当,有了经验 E 后,经过 P 评判,程序在处理 T 时的性能有所提升。

监督学习

监督学习是从标记的训练数据来推断一个功能的机器学习任务。训练数据包括一套训练示例。在监督学习中,每个实例都是由一个输入对象(通常为矢量)和一个期望的输出值(也称为监督信号)组成。

线性回归

在统计学中,线性回归(Linear Regression)是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。

这种函数是一个或多个称为回归系数的模型参数的线性组合。只有一个自变量的情况称为简单回归,大于一个自变量情况的叫做多元回归。

单变量线性回归

以房子大小-价格模型为例

线性回归房子大小-价格模型
这就是一个监督学习算法的工作方式,我们可以看到这里有我们的训练集里房屋价格我们把它喂给我们的学习算法,学习算法的工作了,然后输出一个函数,通常表示为小写 h表示。 h 代表 hypothesis(假设) , h 表示一个函数,输入是房屋尺寸大小,就像你朋友想出售的房屋,因此 h 根据输入的 x 值来得出 y 值, y 值对应房子的价格 因此, h 是一个从x 到 y 的函数映射

一种可能的表达方式为:

线性回归假设函数表达式

因为只含有一个特征/输入变量,因此这样的问题叫作单变量线性回归问题。

代价函数

我们需要把最有可能的直线与我们的数据相拟合,就要对假设函数h选择合适的参数使得我们的建模误差最小。

我们选择的参数决定了我们得到的直线相对于我们的训练集的准确程度,模型所预测的值与训练集中实际值之间的差距(下图中蓝线所指)就是建模误差( modeling error)。
建模误差

我们的目标便是选择出可以使得建模误差的平方和能够最小的模型参数。 即使得代价函数

单变量代价函数表达式

最小。

代价函数也被称作平方误差函数,有时也被称为平方误差代价函数。我们之所以要求出误差的平方和,是因为误差平方代价函数,对于大多数问题,特别是回归问题,都是一个合理的选择。还有其他的代价函数也能很好地发挥作用,但是平方误差代价函数可能是解决回归问题最常用的手段了。

单变量线性回归条件及目标
现有条件及目标

梯度下降算法

梯度下降背后的思想是:开始时我们随机选择一个参数的组合( θ0,θ1,…,θn),计算代价函数,然后我们寻找下一个能让代价函数值下降最多的参数组合。我们持续这么做直到到到一个局部最小值( local minimum) , 因为我们并没有尝试完所有的参数组合,所以不能确定我们得到的局部最小值是否便是全局最小值( global minimum),选择不同的初始参数组合,可能会找到不同的局部最小值。
线性回归梯度下降图解

线性回归批量梯度下降算法公式:
线性回归批量梯度下降算法公式

其中 α 是学习率( learning rate) , 它决定了我们沿着能让代价函数下降程度最大的方向向下迈出的步子有多大,在批量梯度下降中,我们每一次都同时让所有的参数减去学习速率乘以代价函数的导数。
!线性回归梯度下降参数更新方式

原创粉丝点击