Linear Regression

来源:互联网 发布:银行卡四要素 阿里云 编辑:程序博客网 时间:2024/05/21 09:07

Linear Regression

线性回归是机器学习领域的入门算法,其旨在寻找训练样本自变量和因变量间的函数关系,以对新样本求得预测值。

考虑最简单的情形:
训练集:
x y
1 1
2 2
3 3
4 4
5 5
测试集:
x y
6 ?

要得到测试集中因变量y的值,一眼便能看出y = 6,其实,我们把这个“一眼”的过程可以分为很多段:1.寻找训练集中x和y的函数关系y=x 2.将测试集中自变量x的值带入函数y=x 3.得出最终因变量的值6,这也是线性回归模型一般的求解思路。

对于稍微复杂一些的模型(这里指不能“一眼”看出来的函数),例如下面的数据集:
x y
1 1
2 3
3 4
4 6
5 8
我们又怎么得到它们的函数关系呢?

设自变量为xi ,自变量为yi,我们旨在寻找合适的wb使得这样的一个函数关系式成立:

yi=wxi+b

在得到这样的式子以后,我们将自变量的值带入,即可得到对应的因变量的值(这里不是真实值),所以我们可以得到该数据集上的均方误差:
Ek=i=1m(yiyi)

这里yi指训练集上的预测值。我们的目标是使均方误差达到最小,对于此问题的优化方法很多,例如梯度下降法等,这里直接使用最小二乘法求全局最优解,对wb分别求偏导,并令偏导数置零:
ss

联立方程即可求得wb分别为:
w=a\\
& b=

此时我们就得到了最终的线性回归模型:
y=wx+b

考虑更为一般的情况,在实际应用中,训练集中的自变量往往拥有很多属性,所以,自变量不再是只有一个属性的向量,而是由许多属性组成的矩阵,对于这种情况,我们采取同样的方式求解wb

1 0
原创粉丝点击