变量选择--Lasso

来源:互联网 发布:vscode 代码片段 编辑:程序博客网 时间:2024/06/07 11:47

假设数据是 (Yi;Xi1,,Xip),i=1,2,,n.
高维数据(大 p)分析方法:
1. 降维:岭回归(Ridge regression);Lasso; Dantzig selector
2. 特征提取: 主成分分析(PCA)


Lasso:
Lasso可以说是最火的变量选择方法:

β̂ lasso=argmin(YXβ)T(YXβ)+λβ1

计算方法:
Lasso 的目标函数是凸的,不可导的,传统基于导数(梯度)的方法不可用
实用方法有:Lars,coordinate descent, ADMM等

lasso 的优点:

1.当模型为sparse的时候,估计准确度高
2. λ增大时,不重要的变量回归系数β̂ lassoj=0
3. Lars的收敛速度为O(np2), 等于OLS 的收敛速度

lasso 不适用于:

1.模型不是sparse的时候;
2.变量间高度线性相关的时候.

R example 给了R中的包glmnet的使用方法

Regularization: Ridge Regression and the LASSO给了详细的介绍以及与Ridge regression, CV之间的比较

0 0
原创粉丝点击