变量选择--Lasso

来源：互联网发布：vscode 代码片段编辑：程序博客网时间：2024/06/07 11:47

假设数据是 (Yi;Xi1,…,Xip),i=1,2,…,n.
高维数据(大 p)分析方法：
1. 降维：岭回归（Ridge regression）；Lasso; Dantzig selector
2. 特征提取: 主成分分析（PCA）

Lasso：
Lasso可以说是最火的变量选择方法：

β ̂ l a s s o = arg min (Y - X β) T (Y - X β) + λ ∥ β ∥ 1

计算方法：
Lasso 的目标函数是凸的，不可导的，传统基于导数（梯度）的方法不可用
实用方法有：Lars，coordinate descent, ADMM等

lasso 的优点：

1.当模型为sparse的时候，估计准确度高
2. λ增大时，不重要的变量回归系数β̂ lassoj=0
3. Lars的收敛速度为O(np2), 等于OLS 的收敛速度

lasso 不适用于：

1.模型不是sparse的时候；
2.变量间高度线性相关的时候.

R example 给了R中的包glmnet的使用方法

Regularization: Ridge Regression and the LASSO给了详细的介绍以及与Ridge regression， CV之间的比较

0 0