【机器学习系列之一】线性回归模型

来源:互联网 发布:淘宝买欢乐豆 编辑:程序博客网 时间:2024/06/16 00:09

目录

1.    线性回归

1.1  问题转换

1.2  衡量标准

1.3  学习方向

 

 

1.    线性回归

1.1 问题转换

今天我们来谈一下线性回归。

    问题:假如我想知道一个房屋的房价是多少,现在我们能提供的数据包含房屋的面积,房屋的朝向,房屋的地理位置等有关房子的信息,我们该怎么做呢?聪明的你一定已经知道了。

为了方便,我们把所有的数据用x1,x2等来表示,他们可以组成一个向量表示为X,但是每个维度的x对于结果的影响能力是不一样的,因此,我们可以在每个x前面乘上一个不同  的权重,代表每个维度的重要性,但是我不要求直线一定要过原点,需要加一个截距,因此最后的公式可表示为:

 

假设我们现在已经有了一个数据集,他包含了房屋的价格(y),房屋的朝向(x1),房屋的面积(x2),房屋的街道(x3)等数据,我们应该怎么确定它的参数才能使我们的直线能最好的拟合数据?

 

1.2 衡量标准

在数学里有一个概念就做误差,直观表示就是实验值与真实值之间的差距。在这里,我们引入一个新的概念:损失函数。它的含义与误差近似,如下图:

 

我们采用的平方损失函数,为什么采用这个函数呢?因为我们衡量误差是通过真实值与预测值的欧氏距离(你也可以选其他距离)大小来衡量的,最优的直线应该是使各点到回归直线的距离和最小的直线,即平方和最小,但我们一般采用均方差来,为了计算方便还会接下来的求导方便,还会乘以1/2。至此,我们的衡量一个模型是否好坏的标准已经有了。

 

1.3 学习方向

为了达到拟合出一条比较好的直线,就要让损失函数最小,损失函数图像如图所示:

在最低点的时候,损失函数的值最小,那计算机怎么知道应该往哪边走,才能到底最低点呢?数学上有一个梯度的概念,对于线性模型,它指的是斜率,可以通过求参数的偏导来求梯度。但求出来的是正方向上的梯度,我们希望它是往最低点走,因此把方向改为相反方向,也就是负梯度方向。该方法就是梯度下降法。

当维度有很多时,就有如下形式:


 


 

 

 

原创粉丝点击