浅谈线性回归
来源:互联网 发布:2016天猫双十一数据 编辑:程序博客网 时间:2024/05/29 18:10
问题1:线性回归解决的问题是什么?
对于简单的数据样本,我们可以生成线性的拟合函数,对未知数据进行预测。
问题2:线性回归的形式是怎么样?
F(x) = x1*w1+x2*w2+x3*w3...+xn*wn+b,其中x=(x1,x2...xn),xi是x在第i个属性上的取值,w、b是学习之后得到的参数。
问题3:如何确定w和b?
为了确定系数w和b,我们先引入误差RSS的概念,f(x)=wx+b得到的预测值,y为实际值。那么平方误差值RSS的大小为:(y-f(x))^2,我们的目的是要是的误差最小(相当于最小二乘法)。
为了得到目标函数的最小值,所以我们又得引进梯度下降的方法来寻找RSS的最小值。我们可以知道对一个函数求导,则求导得到的方向为函数在该点的梯度方向,也就是增长速度最快的方向。我们只需要取梯度方向的相反值,就可以得到下降速度最快的方向,使得函数最快到达最低点。
推导过程如下图
我们就可以得到w和b的取值。
问题4:多元线性回归的推导?
一般情况下我们都是由d个属性来描述样本,则利用最小二乘法进行w、b估计的推导过程为下图所示。
问题5:广义线性模型?
线性模型虽然简单,但是还是有着丰富的变化。我们为了让预测值跟实际值更加接近,往往会加入一个单调可微函数,称为联系函数。
如二分类情况,y只有取值{0,1},引入sigmoid函数。
问题6:如何多元线性回归中广义逆不可逆?
实际问题中,xTx往往不是满秩,这使得我们在求解多元线性解w的时候得不到答案,因此我们可以引入正则化。
问题7:正则化的目的?
正则化的主要目的是为了为了防止数据的过拟合。根据“奥卡姆剃刀”法则,我们往往选择较简单的模型,有着更好的后验概率。实际生活中我们可能会遇到大量的变量,其数目甚至可能会超过例数,就是这时候我们把一些无关的属性去除,也使得广义逆可逆。通过对广义逆的变化(xTx + kI),使得方程可解。
问题8:正则化的类型?
我们可以知道,在加入正则化之后,约束函数变成了如上图所示,其中q的取值代表着不同的正则化类型。q的值不同会对结果有不同的影响。
我们较为熟悉的是q=1和q=2的情形,q=1的时候我们称其为Lasso,q=2的时候称为岭回归。两者之间的不同我们可以由下图所示:
假设我们现在是两维函数w1和w2,我们可以将其映射到二维平面上,当我们的目标函数不断变化的时候,总会有一个时间点,使得目标函数和q的约束函数相切,岭回归为半径t的圆,所以相切点一般不在坐标轴上,会得到两个不为0的w1和w2。Lasso因为约束条件q=1,所以我们可以看到两个平面相切点很大可能会落到坐标轴上,这使得其中一维为0,更好达到降维的效果。
- 浅谈线性回归
- 浅谈广义线性回归
- 浅谈机器学习中的线性回归和梯度下降
- 机器学习-----线性回归浅谈(Linear Regression)
- 线性回归
- 线性回归
- 线性回归
- 线性回归
- 线性回归
- 线性回归
- 线性回归
- 线性回归
- 线性回归
- 线性回归
- 线性回归
- 线性回归
- 线性回归
- 线性回归
- 密码验证合格程序
- mysql索引失效的情形
- canvas绘制文本 圆弧 详解
- cordova插件inappbrowser导航栏三个图标开关
- Style在Android中的继承关系
- 浅谈线性回归
- 软件需求与软件评估
- java提高篇(一)-----理解java的三大特性之封装
- 1.Youtube视频下载_2.整张网页保存为图片
- Fire Game FZU
- What I have done on...
- linux下域名解析-dig
- QT应用程序分辨率自适应
- 动态绑定