Linear Regression

来源：互联网发布：银行卡四要素阿里云编辑：程序博客网时间：2024/05/21 09:07

线性回归是机器学习领域的入门算法，其旨在寻找训练样本自变量和因变量间的函数关系，以对新样本求得预测值。

考虑最简单的情形：
训练集：
x y
1 1
2 2
3 3
4 4
5 5
测试集：
x y
6 ?

要得到测试集中因变量y的值，一眼便能看出y = 6，其实，我们把这个“一眼”的过程可以分为很多段：1.寻找训练集中x和y的函数关系y=x 2.将测试集中自变量x的值带入函数y=x 3.得出最终因变量的值6，这也是线性回归模型一般的求解思路。

对于稍微复杂一些的模型（这里指不能“一眼”看出来的函数），例如下面的数据集：
x y
1 1
2 3
3 4
4 6
5 8
我们又怎么得到它们的函数关系呢？

设自变量为xi ，自变量为yi，我们旨在寻找合适的w和b使得这样的一个函数关系式成立：

y i = w * x i + b

在得到这样的式子以后，我们将自变量的值带入，即可得到对应的因变量的值（这里不是真实值），所以我们可以得到该数据集上的均方误差：

E k = \sum i = 1 m (y' i - y i)

这里

y′i指训练集上的预测值。我们的目标是使均方误差达到最小，对于此问题的优化方法很多，例如梯度下降法等，这里直接使用最小二乘法求全局最优解，对

w和

b分别求偏导，并令偏导数置零：

s s

联立方程即可求得

w和

b分别为：

w=a\\& b=

此时我们就得到了最终的线性回归模型：

y = w x + b

考虑更为一般的情况，在实际应用中，训练集中的自变量往往拥有很多属性，所以，自变量不再是只有一个属性的向量，而是由许多属性组成的矩阵，对于这种情况，我们采取同样的方式求解w和b：

1 0