机器学习算法之线性回归

来源：互联网发布：java技术培训哪好编辑：程序博客网时间：2024/05/21 22:10

（一）认识回归

1.回归的定义

回归最简单的定义是，给出一个点集D，用一个函数去拟合这个点集，并且使得点集与拟合函数间的误差最小，如果这个函数曲线是一条直线，那就被称为线性回归，如果曲线是一条二次曲线，就被称为二次回归。

2.多元线性回归

假定预测值与样本特征间的函数关系是线性的，回归分析的任务，就在于根据样本X和Y的观察值，去估计函数h，寻求变量之间近似的函数关系。定义：

（1）

其中，n = 特征数目；

xj = 每个训练样本第j个特征的值，可以认为是特征向量中的第j个值。

为了方便，记x0= 1，则多变量线性回归可以记为：

，(θ、x都表示(n+1，1)维列向量)

Note：注意多元和多次是两个不同的概念，“多元”指方程有多个参数，“多次”指的是方程中参数的最高次幂。多元线性方程是假设预测值y与样本所有特征值符合一个多元一次线性方程。

3.广义线性回归

用广义的线性函数：

（2）

wj是系数，w就是这个系数组成的向量，它影响着不同维度的Φj(x)在回归函数中的影响度，Φ(x)是可以换成不同的函数，这样的模型我们认为是广义线性模型，Φ(x)=x时就是多元线性回归模型。

（二）线性回归的求解

说到回归，常常指的也就是线性回归，因此本文阐述的就是多元线性回归方程的求解。假设有连续型值标签(标签值分布为Y)的样本，有X={x1,x2,...,xn}个特征，回归就是求解回归系数θ=θ0, θ1,…,θn。那么，手里有一些X和对应的Y,怎样才能找到θ呢？在回归方程里，求得特征对应的最佳回归系数的方法是最小化误差的平方和。这里的误差是指预测y值和真实y值之间的差值，使用该误差的简单累加将使得正差值和负差值相互抵消，所以采用平方误差（最小二乘法）。平方误差可以写做：

（3）

在数学上，求解过程就转化为求一组θ值使求上式取到最小值，那么求解方法有梯度下降法、最小二乘法等等。梯度下降有如下特点：需要预先选定步长a、需要多次迭代、特征值需要Scaling（统一到同一个尺度范围）。

1.梯度下降算法

根据平方误差，定义该线性回归模型的损耗函数（Cost Function）为：

，（系数是为了方便求导展示）（4）

1.1批量梯度下降

由之前所述，问题演变成了求J(Θ)的极小值问题，这里使用梯度下降法。而梯度下降法中的梯度方向由J(Θ)对Θ的偏导数确定，由于求的是极小值，因此梯度方向是偏导数的反方向。

公式(5)中α为学习速率，当α过大时，有可能越过最小值，而α当过小时，容易造成迭代次数较多，收敛速度较慢。假如数据集中只有一条样本，那么样本数量，所以公式(5)中

所以公式(5)就演变成：

当样本数量m不为1时，将公式(5)中由公式(4)带入求偏导，那么每个参数沿梯度方向的变化值由公式(7)求得。

初始时Θ^T可设为，然后迭代使用公式(7)计算Θ^T中的每个参数，直至收敛为止。由于每次迭代计算Θ^T时，都使用了整个样本集，因此我们称该梯度下降算法为批量梯度下降算法(batch gradient descent)。

1.2 随机梯度下降

当样本集数据量m很大时，批量梯度下降算法每迭代一次的复杂度为O(mn),复杂度很高。因此，为了减少复杂度，当m很大时，我们更多时候使用随机梯度下降算法(stochastic gradient descent),算法如下所示：

即每读取一条样本，就迭代对Θ^T进行更新，然后判断其是否收敛，若没收敛，则继续读取样本进行处理，如果所有样本都读取完毕了，则循环重新从头开始读取样本进行处理。

这样迭代一次的算法复杂度为O(n)。对于大数据集，很有可能只需读取一小部分数据，函数J(Θ)就收敛了。比如样本集数据量为100万，有可能读取几千条或几万条时，函数就达到了收敛值。所以当数据量很大时，更倾向于选择随机梯度下降算法。

但是，相较于批量梯度下降算法而言，随机梯度下降算法使得J(Θ)趋近于最小值的速度更快，但是有可能造成永远不可能收敛于最小值，有可能一直会在最小值周围震荡，但是实践中，大部分值都能够接近于最小值，效果也都还不错。

1.3梯度下降算法的优缺点

第一种，遍历全部数据集算一次损失函数，然后算函数对各个参数的梯度，更新梯度。这种方法每更新一次参数都要把数据集里的所有样本都看一遍，计算量开销大，计算速度慢，不支持在线学习，这称为Batch gradient descent，批梯度下降。

另一种，每看一个数据就算一下损失函数，然后求梯度更新参数，这个称为随机梯度下降，stochastic gradient descent。这个方法速度比较快，但是收敛性能不太好，可能在最优点附近晃来晃去，hit不到最优点。两次参数的更新也有可能互相抵消掉，造成目标函数震荡的比较剧烈。

为了克服两种方法的缺点，现在一般采用的是一种折中手段，mini-batch gradient decent，小批的梯度下降，这种方法把数据分为若干个批，按批来更新参数，这样，一个批中的一组数据共同决定了本次梯度的方向，下降起来就不容易跑偏，减少了随机性。另一方面因为批的样本数与整个数据集相比小了很多，计算量也不是很大。

参考文章：http://blog.csdn.net/suipingsp/article/details/42101139/

https://www.cnblogs.com/eczhou/p/3951861.html

阅读全文

0 0