机器学习——岭回归和LASSO回归

来源:互联网 发布:淘宝卖家视频拍摄软件 编辑:程序博客网 时间:2024/04/29 06:10

1.用矩阵表示多元线性回归

Y=BX+a

Q(B)=(Y-BX)T(Y-BX)达到最小时的B值。

也即是残差平方和最小时。B(Bi)的值。可以证明B的最小二乘估计=(XTX)-1XTy

其中(XTX)-1为广义逆。

如果X存在线性相关的话,XTX没有逆:

    1.出现多重共线性2.当n<p,变量比样本多时,出现奇异

岭回归(Ridge Regression)

先对数据做标准化

B(K)=(XTX+kI)XTY为B的岭回归估计,其中K为岭参数,I为单位矩阵,KI为扰动。

岭迹图帮助我们发现多重共线性,以及取那个K值。在图中,k很小时,B很大,k稍微增大,B迅速变小,肯定有多重共线性。多重共线性的岭迹图一般呈喇叭口状。选喇叭附近的k值。

岭迹图可以筛选变量,有个变量的系数长期很接近于0,可以剔除这些变量。

选择k或者lambda使得:

(1)各岭回归系数的岭基本稳定

(2)正负直接穿梭时,不合乎实际意义

(3)残差平方和增大不太多。

用R语言进行岭回归:

lm.ridge(y~.,longley)

R中的ridge包(需要下载安装)

LASSO回归

(Least absolute shrinkage and selectionator operaterator)

最小的绝对收缩通过构造一个一阶惩罚函数获得一个精炼的模型,通过最终确定一些指标(变量)的系数为0(岭回归估计系数等于0的机会微乎其微),解释力很强。擅长处理具有多重共线性的数据,与岭回归一样是有偏估计。

弹性网

LAR(最小角回归Least Angel Regression)

类似于逐步向前回归的形式

R语言中有lars的包

0 1
原创粉丝点击