ridge regression岭回归

来源：互联网发布：程序员工作特长编辑：程序博客网时间：2024/04/24 16:24

岭回归用于处理下面两类问题：

1.数据点少于变量个数

2.变量间存在共线性

岭回归的原理

岭回归是一种专用于共线性数据分析的有偏估计回归方法，实质上是一种改良的最小二乘估计法，通过放弃最小二乘法的无偏性，以损失部分信息、降低精度为代价，获得回归系数更为符合实际、更可靠的回归方法，对病态数据的耐受性远远强于最小二乘法。

岭回归的原理较为复杂。根据高斯马尔科夫定力，多重相关性并不影响最小二乘法估计量的无偏性和最小方差性，但是，虽然最小二乘估计量在所有线性估计量中是方差最小的，但是这个方差都不一定小，而实际上可以找到一个有偏估计量，这个估计量虽然有较小的偏差，但它的精度却能够大大高于无偏的估计量。岭回归分析就是根据这个原理，通过在正规方程中引入有偏常熟二求的回归估计量的。

缺点：通常岭回归方程的R平方值会稍低于普通回归分析，但回归系数的显著性往往明显高于普通回归，在存在共线性问题和病态数据偏多的研究中有较大的实用价值。

k 选值时要在红线内，要平稳，k要去喇叭口部分的值，不能取后面太趋于稳定的值，太稳定代表残差平方和太大

因为岭回归的岭参数k的取值太主观，HGB估计方法和L-W估计方法等得出的k值可能相差几十倍之多，LASSO就是岭回归的取代，LASSO也是有偏估值的

k值在R语言中用lambda表示

岭回归是有偏估值的，意思是说它的到的残差平方和会比实际的残差平方和大一点点，因为人为多加了一个岭参数k

岭回归的缺陷：

1.岭参数k计算方法太多，差异太大

2.在岭迹图k取值，很依赖分析师的经验，只要是在喇叭口周围都可以

3.岭迹图做变量筛选，随意性很大，筛选不掉变量，而我们本意是想只筛选出三五个变量做回归

0 0