线性回归正则化 regularized linear regression

来源：互联网发布：win10美化mac 编辑：程序博客网时间：2024/06/05 05:00

线性回归正则化regularized linear regression

在前几篇博客中介绍了一元线性回归http://blog.csdn.net/u012328159/article/details/50994095和多元线性回归http://blog.csdn.net/u012328159/article/details/51029695等线性回归的知识，具体请参见本人其他博客。但是线性回归存在一个很重要的问题就是过拟合(overfitting)问题，所谓过拟合简单直白的说就是模型的训练误差极小，而检验误差很大。一个好的学习器不仅能够很好的拟合训练数据，而且能够对未知样本有很强的泛化能力，即低泛化误差。先来看看线性回归中的过拟合现象（自己不想画图了，直接盗用Andrew Ng大神的图吧）：

图中左边的图表示的线性回归模型存在欠拟合现象(underfitting)，欠拟合顾名思义就是对训练数据的拟合程度不够好，训练误差大。中间的线性回归模型是个拟合程度很好的模型。右边图表示的就是过拟合现象，能够看出它对训练数据拟合的非常好，但是预测能力很差，泛化能力很差。

因此，处理过拟合问题常用的方法有：

减少特征数量主要方法有：人工的挑选重要的特征，去除不重要的特征。采用模型选择算法（在后面的博客中会介绍，在这不细说了）但是这个方法在去除特征的同时，也去除了这部分特征所提供的信息。
正则化（regularization）保留所有特征，但是减少参数 $\theta$ 的值。

线性回归正则化通过缩小参数的值，可以使多项式模型更加简单，直接举个例子吧（图片来源：ng machine learning课）

上图左边的线性回归模型显然是过拟合的，但是如果在代价函数后面添加两项 $1000\theta _{3}^{2}$ 和 $1000\theta _{4}^{2}$ 如果想让 $J(\theta )$ 最小，那么 $\theta _{3}$ 和 $\theta _{4}$ 的值几乎要接近0，因此，右边的多项式几乎等价于左边的，又能够得到一个正确的线性回归模型。

因此，正则化线性回归(regularized linear regression)的代价函数（cost function）为：

$J(\theta) = \frac{1}{2m}\sum_{i=1}^{m}(h_{\theta }(x^{(i)}- y^{(i)}))^{2} + \lambda \sum_{j=1}^{n}\theta _{j}^{2}$

其中 $\lambda \sum_{j=1}^{n}\theta _{j}^{2}$ 成为正则项， $\lambda$ 为正则系数。如果 $\lambda$ 设置的非常大，会使 $\theta \rightarrow 0 \Rightarrow h_{\theta }(x) =\theta _{0}$ 将会产生欠拟合问题。因此应该选择合适的正则系数 $\lambda$ 。

我们的目标是 $min_{\theta}J(\theta)$ 即求得使 $J(\theta)$ 最小的参数 $\theta$ 。因此对正则化线性回归使用梯度下降(gradient descent)，为：

$\begin{array}{lcl}\theta _{0} &=& \theta _{0} - \alpha \frac{1}{m}\sum_{i=1}^{m}(h_{\theta}(x^{(i)}) - y^{(i)})x_{0}^{(i)}\\ \\ \theta _{j}&=& \theta _{j} - \alpha \left [ \frac{1}{m}\sum_{i=1}^{m}(h_{\theta}(x^{(i)}) - y^{(i)})x_{j}^{(i)} + \frac{1}{m}\lambda \theta _{j}\right ](j=1,2,...,n)\\\\ \Rightarrow \theta _{j} &=& \theta _{j}(1-\alpha \frac{\lambda }{m}) - \alpha \frac{1}{m}\sum_{i=1}^{m}(h_{\theta}(x^{(i)}) - y^{(i)})x_{j}^{(i)} \end{array}$

之所以把 $\theta _{0}$ 单独写出来，是因为我们正则化的时候，不对 $\theta _{0}$ 进行惩罚。因为 $\alpha \frac{\lambda }{m}$ 始终为正，因此 $\begin{array}{lcl}1-\alpha \frac{\lambda }{m}< 1 \end{array}$ 一般来说其值比1小一点点。

对于线性回归来说，除了通过梯度下降来求解参数 $\theta$ ，还可以通过正规方程（normal equation）用矩阵运算来直接求解参数 $\theta$ 。那么正则化线性回归的正规方程为：

$\theta = (X^{T}X + \lambda\begin{bmatrix} 0 & & & \\ & 1& & \\ & & .& \\ & & & .& \\ & & & & .& \\ & & & & & 1 \end{bmatrix})^{-1}X^{T}y$

其中，上式中的对角矩阵维度是(n+1)*(n+1)。在以前的博客讲正规方程的时候也讲过当 $m\leq n$ 时， $(X^{T}X)^{-1}$ 不存在，但是在正则化线性回归中，若果 $\lambda > 0$ ,

$(X^{T}X + \lambda\begin{bmatrix} 0 & & & \\ & 1& & \\ & & .& \\ & & & .& \\ & & & & .& \\ & & & & & 1 \end{bmatrix})^{-1}$ 是存在的。

0 0