Stanford机器学习__Lecture notes CS229. Linear Regression(3)

来源：互联网发布：java ringbuffer 编辑：程序博客网时间：2024/05/23 00:59

多项式线性拟合:

前面我们建立假设H₀(θ) = θ₀ + θ₁x对数据进行了简单线性回归的拟合。
但事实上这样的假设存在着极大的主观性，从数据分布上来看(人工数据，从开始我就知道假设H₀不可能满足分布)。为了得到更合适的回归拟合，我们提出了三种不同的特征的选择方式，结果如下：
这里写图片描述

左图，假设为H₀(θ) = θ₀ + θ₁x ，我们可以看到数据不能很好的和数据相吻合。

假设变量y与x的关系为n次多项式,且在x_i处对y_i的随机误差 ε_i (i=1,2,…,n)服从正态分布N(0, σ₂)，则:
H_{n - 1}(θ) = θ₀ + θ₁x + θ₂x² + ……+θ_nxⁿ + ε

可以看到我们构建了几个新的特征x²，……xⁿ
令:
x = p₁, x² = p₂，…，xⁿ = p_n

则上述非线性的多项式模型就转化为多元线性模型：
H₁(θ) = θ₀ + θ₁p₁ + θ₂p₂ + ……+θ_np_n + ε

这样我们就可以用前面介绍的线性回归分析的方法来解决上述问题了。

事实上H₀(θ)可以被认为是y关于x的n次多项式。

中图，假设为:H₁(θ) = θ₀ + θ₁x + θ₂x²

右图，一共6个数据点，所以用5阶多项式就可以做到所有的数据点都在曲线上了，假设为
这里写图片描述

5阶多项式把所有的误差一起计算在内，得到了一个看似很perfect的回归拟合曲线，但是我们不认为这是一个很好的假设，因为它无法做到很好的预测。
我们称左图的拟合效果为 underfitting（欠拟合），数据中的明显的结构关系没有被模型所捕获。称右图的拟合效果为 overfitting（过拟合），这种假设只是用于特定的数据，预测效果不好。
从效果上来看，y关于x的2次多项式能更好的拟合并泛化数据。

我们会在Bias-Variance Tradeoff（权衡偏差与方差）　这一部分来说明一下如何用期望泛化误差MSE来判断哪个拟合效果更好.

局部加权线性回归

那么我们在实线过程中，关于这类的线性回归的拟合总不能对多项式的假设一个一个尝试，感觉不开森。那有没有自动选择特征集的算法，或者是让特征的选择对结果影响不那么大？
接下来我们要引入的就是Locally weighted linear regression (LWR)，它可以弱化特征的选择对结果影响。

在最初的线性回归算法中，对于输入变量，我们要预测，我们通常要做的：
这里写图片描述

相对而言，对于局部加权线性回归，我们要做：
这里写图片描述

对应简单线性回归的Normal Equation，这里我们的局部Ө 估计：
Ө=(X^TWX)^-1X^TWY

这里写图片描述

这里需要注意，由于我们引入了局部回归的概念，所以在数据开始训练之前，我们需要预先对数据进行某种排序。

比如，我有原始数据datasets[0]表示自变量，datasets[1]表示应变量：
datasets = [[1838, 895, 889, 2117, 1606, 1577, 1445, 852, 1544, 2042, 1396,
1381, 2166, 560, 1912, 1835, 1842, 1386, 1133, 661],[1057981, 1737435, 1478503, 1760282, 1481681, 2475224, 2474398,
1888622, 1822441, 1879343, 2678768, 1892778, 2037657, 2016359,
1692353, 2205109, 2066814, 1860923, 1716627, 1546378]]
现在我需要对自变量进行排序，同时时应变量对应到各自的自变量上去
datasets = np.array(sorted(np.array(datasets).T, key = itemgetter(0)))
在代码过程中，(X^TWX)需要求逆，注意这里的X并不生指整个训练集，而是x周围的部分点，阈值自拟。
同时在代码过程中，由于数据跨域较大，使得x周围没有点，这时在计算(X^TWX)，会发现该矩阵不可逆，所以在计算矩阵的逆之前判断周围点集的个数，当发现仅仅包含x时，我们直接返回其对应的y值。

我们可以看到局部加权线性回归里面多了一个权值项ω⁽ⁱ⁾ 。直观上， ω⁽ⁱ⁾ 的值越大，它所对应的(y⁽ⁱ⁾ - Ө^Tx⁽ⁱ⁾)²越大，反之越小。
我们选择ω⁽ⁱ⁾的形式如下：
这里写图片描述

其中的 x就是我们要预测的输入变量。为了理解，看下图：
这里写图片描述
显然，当|x⁽ⁱ⁾ - x|足够小时，ω⁽ⁱ⁾近似为1；当|x⁽ⁱ⁾ - x|足够大时，ω⁽ⁱ⁾近似为0；也就是说离x很近的样本会得到接近为1的权值，很远的样本权值近乎为0。

在让我们来看一下ω⁽ⁱ⁾的形式，和高斯函数形式很像，但其实二者并没有什么关系。τ是波长参数(bandwidth)，控制权值随距离的下降速率，越大，衰减的越慢，反之则越快。
我们的小标题中局部加权线性回归。从上面我们已经知道”局部“，”加权“的来源，那这个线性体现在哪呢？我们想一想，从上面的局部加权回归的两步的第２步我们能够看出，在预测x对应的输出时，我们采用的仍然是线性回归的方式，只是不像初始的线性回归，局部加权线性回归是在”局部“采用线性回归。从下图可能看到更仔细。
这里写图片描述

假如给定x=10,要预测对应的y值，如果用线性拟合的方法拟合会得到的是图中的绿线，那么对应的点将在该直线上。但如果是局部加权，也就是只考虑（主要）两条虚线之间，也就是圆圈之内的四个点来进行线性拟合，那么得到的是那条红线，对应的点在这条红线上相对的y值就是预测值，从直观上来看就可以认为这种预测会更准确。

介绍到这里似乎没有体现出机器学习的意思，仔细观察就会发现Ｋ是一个很重要的东西，我们还是举之前的那组数据为例：

我们需要拟合的数据样本
这里写图片描述

很明显，这是一个非线性关系的样本数据，我们先用普通最小二乘回归来处理这个问题：
这里写图片描述

以看到，要用直线来拟合非线性关系非常牵强。

下面我们用刚才介绍的局部加权线性回归来拟合一下这个模型，简单回顾一下过程：

1.用高斯核函数计算出第ｉ个样本处，其它所有样本点的权重Ｗ2.用权重ｗ对第ｉ个样本作加权线性回归，得到回归方程，即拟合的直线方程3.用刚才得到的经验回归直线计算出xi处的估计值y^i4.重复一至三步，得到每个样本点的估计值

这里作加权线性回归时，我使用的是把加权最小二乘转换为普通最小二乘的方法。
刚才说到，ｋ是一个很关键的参数，我们从高斯函数的形式可以看出，ｋ取非常大的时候，每个样本点的权重都趋近于１，我们可以先取ｋ很大，检验一下是否正确。
这里写图片描述
k = 1000.0

这里写图片描述
k = 100.0

这里写图片描述
k = 10.0

可以看到，当ｋ越小时，拟合的效果越好。
代码：
https://code.csdn.net/snippets/1855028.git

小结:

LWR算法是我们遇到的第一个non-parametric（非参数）学习算法，而线性回归则是我们遇到的以一个parametric（参数）学习算法。
局部加权回归在每一次预测新样本时都会重新的确定参数，从而达到更好的预测效果当数据规模比较大的时候计算量很大，学习效率很低。并且局部加权回归也不是一定就是避免underfitting。

对于线性回归算法，一旦拟合出适合训练数据的参数Ө，保存这些参数Ө，对于之后的预测，不需要再使用原始训练数据集，所以是参数学习算法。

对于局部加权线性回归算法，每次进行预测都需要全部的训练数据（每次进行的预测得到不同的参数Ө），没有固定的参数Ө，所以是非参数算法。也就是说，当训练集的容量较大时，非参数学习算法需要占用更多的存储空间，计算速度也较慢。

Stanford机器学习__Lecture notes CS229. Linear Regression(2)

参考：
http://m.blog.csdn.net/article/details?id=16370245
https://zhuanlan.zhihu.com/p/22064801

0 0