岭回归and逐步线性回归杂记

来源：互联网发布：led中性工程软件编辑：程序博客网时间：2024/04/28 15:00

1.预备知识：对于有些矩阵，矩阵中某个元素的一个很小的变动，会引起最后计算结果误差很大，这种矩阵称为“病态矩阵”。有些时候不正确的计算方法也会使一个正常的矩阵在运算中表现出病态。对于高斯消去法来说，如果主元（即对角线上的元素）上的元素很小，在计算时就会表现出病态的特征。

回归分析中常用的最小二乘法是一种无偏估计。 $XB=Y$

当X列满秩时，有： $B=X^+Y=(X^TX)^{-1}X^TY$ X⁺表示X的广义逆（或叫伪逆）。

当X不是列满秩，或者某些列之间的线性相关性比较大时，X^TX的行列式接近于0，即X^TX接近于奇异，计算(X^TX)^-1时误差会很大。此时传统的最小二乘法缺乏稳定性与可靠性。

2.岭回归原理：

岭回归是对最小二乘回归的一种补充，它损失了无偏性，来换取高的数值稳定性，从而得到较高的计算精度。

3. 岭回归推导：

岭回归(Ridge Regression)是在平方误差的基础上增加正则项, $\lambda > 0$

通过确定 $\lambda$ 的值可以使得在方差和偏差之间达到平衡：随着 $\lambda$ 的增大，模型方差减小而偏差增大。

$\sum_{i=1}^{n}\left ( y_i-\sum_{j=0}^{p}w_jx_{ij} \right )^2+\lambda \sum_{j=0}^{p}w^2_j$

对 $w$ 求导，结果为： $2X^T\left ( Y-XW \right )-2\lambda W$

令其为0，可求得 $w$ 的值： $\hat{w}=\left ( X^TX+\lambda I \right )^{-1}X^TY$

4. $\lambda$ 值的选取：

在这里我们通过调整lamda的值控制model compexity ,用图中选择合适的 $\lambda$ 值！即：通过预测误差最小化得到 $\lambda$ ：数据获取之后首先抽取一部分数据用于测试，剩余的作为训练参数w。训练完毕之后在测试集上测试预测性能。通过选取不同的 $\lambda$ 来重复上述测试过程，最终得到一个使预测误差最小的 $\lambda$ 。

5.应用到的技术

这里用过引入 $\lambda$ 来限制了所有w之和，通过引入惩罚项，能够减少不重要的参数，这个技术在统计学中也叫做缩减（shrinkage）！\

缩减方法可以去掉不重要的参数，因此能更好的理解数据。此外，与简单的线性回归相比，缩减法能取得更好的预测效果。

**逐步线性回归算法：

逐步线性回归算法的实际好处并不在于能会出上图这样漂亮的图，主要的优点在于它可以帮助人们理解现有的模型并作出改进。当构建了一个模型后，可以运行该算法找出重要的特征，这样就有可能及时停止对那些不中要特征的收集。最后，如果用于测试，该算法每100次迭代后就可以构建出一个模型，可以使用类似于10折交叉验证的方法比较这些模型，最终选择使误差最小的模型。

0 0