浅谈线性回归

来源:互联网 发布:2016天猫双十一数据 编辑:程序博客网 时间:2024/05/29 18:10

问题1:线性回归解决的问题是什么?

对于简单的数据样本,我们可以生成线性的拟合函数,对未知数据进行预测。

问题2:线性回归的形式是怎么样?

F(x) = x1*w1+x2*w2+x3*w3...+xn*wn+b,其中x=x1,x2...xn),xix在第i个属性上的取值,wb是学习之后得到的参数。

问题3:如何确定wb

为了确定系数wb,我们先引入误差RSS的概念,fx=wx+b得到的预测值,y为实际值。那么平方误差值RSS的大小为:(y-fx))^2,我们的目的是要是的误差最小(相当于最小二乘法)。

为了得到目标函数的最小值,所以我们又得引进梯度下降的方法来寻找RSS的最小值。我们可以知道对一个函数求导,则求导得到的方向为函数在该点的梯度方向,也就是增长速度最快的方向。我们只需要取梯度方向的相反值,就可以得到下降速度最快的方向,使得函数最快到达最低点。

推导过程如下图

 

我们就可以得到wb的取值。

 

问题4:多元线性回归的推导?

一般情况下我们都是由d个属性来描述样本,则利用最小二乘法进行wb估计的推导过程为下图所示。

 

问题5:广义线性模型?

线性模型虽然简单,但是还是有着丰富的变化。我们为了让预测值跟实际值更加接近,往往会加入一个单调可微函数,称为联系函数。

如二分类情况,y只有取值{0,1},引入sigmoid函数。


问题6:如何多元线性回归中广义逆不可逆?

实际问题中,xTx往往不是满秩,这使得我们在求解多元线性解w的时候得不到答案,因此我们可以引入正则化。

 

问题7:正则化的目的?

正则化的主要目的是为了为了防止数据的过拟合。根据“奥卡姆剃刀”法则,我们往往选择较简单的模型,有着更好的后验概率。实际生活中我们可能会遇到大量的变量,其数目甚至可能会超过例数,就是这时候我们把一些无关的属性去除,也使得广义逆可逆。通过对广义逆的变化(xTx + kI),使得方程可解。

 

问题8:正则化的类型?

 

我们可以知道,在加入正则化之后,约束函数变成了如上图所示,其中q的取值代表着不同的正则化类型。q的值不同会对结果有不同的影响。

 

我们较为熟悉的是q=1q=2的情形,q=1的时候我们称其为Lassoq=2的时候称为岭回归。两者之间的不同我们可以由下图所示:

 

假设我们现在是两维函数w1w2,我们可以将其映射到二维平面上,当我们的目标函数不断变化的时候,总会有一个时间点,使得目标函数和q的约束函数相切,岭回归为半径t的圆,所以相切点一般不在坐标轴上,会得到两个不为0w1w2Lasso因为约束条件q=1,所以我们可以看到两个平面相切点很大可能会落到坐标轴上,这使得其中一维为0,更好达到降维的效果。 


0 0
原创粉丝点击