【机器学习系列之一】线性回归模型

来源：互联网发布：淘宝买欢乐豆编辑：程序博客网时间：2024/06/16 00:09

1. 线性回归

1.1 问题转换

1.2 衡量标准

1.3 学习方向

1. 线性回归

1.1 问题转换

今天我们来谈一下线性回归。

问题：假如我想知道一个房屋的房价是多少，现在我们能提供的数据包含房屋的面积，房屋的朝向，房屋的地理位置等有关房子的信息，我们该怎么做呢？聪明的你一定已经知道了。

为了方便，我们把所有的数据用x1,x2等来表示，他们可以组成一个向量表示为X，但是每个维度的x对于结果的影响能力是不一样的，因此，我们可以在每个x前面乘上一个不同的权重，代表每个维度的重要性，但是我不要求直线一定要过原点，需要加一个截距，因此最后的公式可表示为：

假设我们现在已经有了一个数据集，他包含了房屋的价格（y），房屋的朝向（x1），房屋的面积（x2），房屋的街道（x3）等数据，我们应该怎么确定它的参数才能使我们的直线能最好的拟合数据？

1.2 衡量标准

在数学里有一个概念就做误差，直观表示就是实验值与真实值之间的差距。在这里，我们引入一个新的概念：损失函数。它的含义与误差近似，如下图：

我们采用的平方损失函数，为什么采用这个函数呢？因为我们衡量误差是通过真实值与预测值的欧氏距离（你也可以选其他距离）大小来衡量的，最优的直线应该是使各点到回归直线的距离和最小的直线，即平方和最小，但我们一般采用均方差来，为了计算方便还会接下来的求导方便，还会乘以1/2。至此，我们的衡量一个模型是否好坏的标准已经有了。

1.3 学习方向

为了达到拟合出一条比较好的直线，就要让损失函数最小，损失函数图像如图所示：

在最低点的时候，损失函数的值最小，那计算机怎么知道应该往哪边走，才能到底最低点呢？数学上有一个梯度的概念，对于线性模型，它指的是斜率，可以通过求参数的偏导来求梯度。但求出来的是正方向上的梯度，我们希望它是往最低点走，因此把方向改为相反方向，也就是负梯度方向。该方法就是梯度下降法。

当维度有很多时，就有如下形式：

阅读全文

0 0