斯坦福大学机器学习——线性回归（Linear Regression）

来源：互联网发布：我知你好张国荣歌词编辑：程序博客网时间：2024/04/29 03:08

一、概念
线性回归是利用称为线性回归函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。线性回归函数则是一个或多个称为回归系数的模型参数的线性组合。
二、用途
当结论或者类是数值，并且所有训练样本都为数值时，可以使用线性回归的方法。
线性回归主要用途是预测，线性回归可以利用训练集拟合出一个预测模型。当完成这样一个模型以后，对于一个新增的x值，在没有给定与它相配对的y的情况下，可以用这个拟合过的模型预测出一个y值。
三、模型
输入：m个训练样本， $({ x }^{ (1) },{ y }^{ (1) })$ ,..., $({ x }^{ (m) },{ y }^{ (m) })$ ；
输出：n个线性方程的回归系数， ${ \theta }_{ 1 },...,{ \theta }_{ n }$ 。
线性回归方程可以表示为自变量x与因变量h(x)的线性组合：
$h(x)=\sum _{ i=1 }^{ n }{ { \theta }_{ i } } { x }_{ i }$ (1)
注：这里 ${ \theta }_{ i }$ 称为参数（也称权值）。
通过对训练样本的学习，确定参数 ${ \theta }_{ i }$ 使得样本y和预测值h(x)之间最接近。我们用代价函数 $J(\theta )$ 表示样本y和预测值h(x)之间的距离：
$J(\theta )=\frac { 1 }{ 2 } { \sum _{ i=1 }^{ n }{ { [h }_{ \theta }({ x }^{ (i) })-{ y }^{ (i) }]^{ 2 } } }$ (2)

我们的目的是使 $J(\theta )$ 最小，即求出min $J(\theta )$ 。

四、实现

规范式（normal equation）

规范式是通过公式直接计算出使得代价函数 $J(\theta )$ 取最小值的 $\theta$ 的值：

令

$y=\left[ \begin{matrix} { y }^{ (1) } \\ { y }^{ (2) } \\ { y }^{ (3) } \\ \vdots \\ { y }^{ (m) } \end{matrix} \right]$ $x=\left[ \begin{matrix} { (x }^{ (1) })^{ T } \\ { (x }^{ (2) })^{ T } \\ { (x }^{ (3) })^{ T } \\ \vdots \\ { (x }^{ (m) })^{ T } \end{matrix} \right]$ $\theta =\left[ \begin{matrix} { \theta }_{ 1 } \\ { \theta }_{ 2 } \\ { \theta }_{ 3 } \\ \vdots \\ { \theta }_{ m } \end{matrix} \right]$

得到 $\theta ={ ({ x }^{ T }x })^{ -1 }{ x }^{ T }y$ .

梯度下降算法（gradient descent）

梯度下降算法是一种搜索算法，其基本思想是赋予 $\theta$ 一个初始值，然后通过迭代的方法不断更新 $\theta$ 的值以使 $J(\theta )$ 达到最小：

${ \theta }_{ j }:={ \theta }_{ j }:-\alpha \frac { \partial }{ \partial { \theta }_{ j } } J(\theta )$ （3）

这里， $\alpha$ 被称为学习率（learning rate）， $\alpha$ 的大小决定梯度下降的速率。

为求 $J(\theta )$ 我们先看 $\theta$ 的各分量 ${\theta}_{j}$ ：

$\frac { \partial }{ \partial { \theta }_{ j } } J(\theta )=\frac { \partial }{ \partial { \theta }_{ j } } \frac { 1 }{ 2 } { ({ h }_{ \theta }(x)-y) }^{ 2 }$

$=({ h }_{ \theta }(x)-y)\cdot \frac { \partial }{ \partial { \theta }_{ j } } (\sum _{ i=0 }^{ m }{ ({ \theta }_{ i }{ x }_{ i }-y) } )$

$=({ h }_{ \theta }(x)-y){ x }_{ j }$ （4）

那么对于单一的样本 $(x^{(i)},y^{(i)})$ ,将公式（4）带入公式（3）得：

${ \theta }_{ j }={ \theta }_{ j }+\alpha ({ y }^{ (i) }-{ h }_{ \theta }({ x }^{ (i) }))$

上述更新方法称为LMS更新规则（least mean squares rules），也称Windrow-Hoff学习规则，该方法有如下性质：迭代的速率与误差项（error term） $({ y }^{ (i) }-{ h }_{ \theta }({ x }^{ (i) }))$ 以及 $\alpha$ 的值正相关：如果 $\alpha({ y }^{ (i) }-{ h }_{ \theta }({ x }^{ (i) }))$ 过小， $\alpha$ 收敛的速率很慢；反之，若 $\alpha({ y }^{ (i) }-{ h }_{ \theta }({ x }^{ (i) }))$ 过大，则 $\alpha$ 迭代的速率过快，可能导致不收敛的情况。

Windrow-Hoff学习方法仅仅考虑单个训练样本，样本的选取对于对于迭代次数有一定的影响，若选取的是极端样本，可能导致迭代次数过多或者无法收敛的情况。将Windrow-Hoff学习方法略作修改，便可得到利用多样本的梯度下降学习方法：

批梯度下降算法（batch gradient descent）

Repeat until convergence{

${ \theta }_{ j }:={ \theta }_{ j }+\alpha \sum _{ i=1 }^{ m }{ ({ y }^{ (i) }-{ h }_{ \theta }({ x }^{ (i) }) } { x }_{ j }$ (for every j)

}

批梯度下降算法使用了所有的样本，因此得名。

随机梯度下降算法（stochatic gradient descent）

for (j=1;j<=n;j++){

for( i=1;i<= m;i++){

${ \theta }_{ j }:={ \theta }_{ j }+\alpha ({ y }^{ (i) }-{ h }_{ \theta }({ x }^{ (i) }){ x }_{ j }^{(i)}$

if (convergence)

break;

}

批梯度下降算法在进行首次迭代前，就需要扫描所有训练样本，如果样本量较大的话，可能会产生较大开销。而随机梯度下降算法可立即迭代，在每次迭代时引入一个样本。随机梯度下降算法由于每次迭代的步长 $({ y }^{ (i) }-{ h }_{ \theta }({ x }^{ (i) }){ x }_{ j }^{ (i) }$ 均不同，因此可能会产生不收敛的现象。但通常，随机梯度下降算法比批梯度下降算法收敛速率更快。因此，若数据量较大的情况下，一般更倾向于使用随机梯度下降算法。

五、原理（为何使用最小二乘）

假设 $y^{(i)}$ 和 $x^{(i)}$ 满足如下关系：

$y^{(i)}=\theta^{T}x^{(i)}+\epsilon^{(i)}$ (5)

其中， $\epsilon^{(i)}$ 是误差项，表示未参与建模的因素产生的误差。

更进一步的假设 $\epsilon^{(i)}$ 为独立同分布（independently and identicallydistributed, IID），并服从期望为0，方差为 $\sigma^{2}$ 的正态分布。即 $\epsilon^{(i)}\sim N(0,\sigma^{2})$ ，那么的密度函数为：

$p(\epsilon^{i})=\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(\epsilon^{i})^{2}}{2\sigma^{2}})$ (6)

由（5）和（6）可得

$p(y^{i}|x^{i};\theta)=\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y^{(i)}-\theta^{T}x^{(i)})^{2}}{2\sigma^{2}})$ (7)

$p(y^{i}|x^{i};\theta)$ 表示给定 $x^{(i)}$ 和参数 $\theta$ 的情况下， $y^{(i)}$ 的分布。关于 $\theta$ 的极大似然方程为：

$L(\theta)= \prod _{ i=1 }^{m }{p(y^{(i)}|x^{(i)};\theta) }$

$= \prod _{ i=1 }^{m}{\frac{1}{\sqrt{2\pi}\sigma} exp(-\frac{(y^{(i)}-\theta^{T}x^{(i)})^{2}}{2\sigma^{2}})}$ (8)

我们在样本给定的情况下，通过改变 $\theta$ 的值，使得样本的联合分布概率最大，即使 $L(\theta)$ 最大。

$L(\theta)$ 的对数似然函数为：

$l(\theta)=logL(\theta)$

$=log \prod _{ i=1 }^{m}{\frac{1}{\sqrt{2\pi}\sigma} exp(-\frac{(y^{(i)}-\theta^{T}x^{(i)})^{2}}{2\sigma^{2}})}$

$=\sum _{ i=1 }^{m}{log \frac{1}{\sqrt{2\pi}\sigma} exp(-\frac{(y^{(i)}-\theta^{T}x^{(i)})^{2}}{2\sigma^{2}})}$

$=mlog\frac{1}{\sqrt{2\pi}\sigma}-\frac{1}{\sigma^{2}}\cdot\frac{1}{2}\sum_{i=1}^{m}{(y^{(i)}-\theta^{T}x^{(i)})^{2}}$ (9)

（9）的前项 $mlog\frac{1}{\sqrt{2\pi}\sigma}$ 为常数，后项 $\frac{1}{\sigma^{2}}\cdot\frac{1}{2}\sum_{i=1}^{m}{(y^{(i)}-\theta^{T}x^{(i)})^{2}}$ 非负。因此，当 $\frac{1}{\sigma^{2}}\cdot\frac{1}{2}\sum_{i=1}^{m}{(y^{(i)}-\theta^{T}x^{(i)})^{2}}$ 取最小值时， $l(\theta)$ 有最大值。而后项中 $\frac{1}{2}\sum_{i=1}^{m}{(y^{(i)}-\theta^{T}x^{(i)})^{2}})$ 为最小二乘的代价函数 $J(\theta )$ 。

由此可见，计算 $\theta$ 的极大似然函数过程中，很自然的会选择最小二乘代价函数 $J(\theta )=\frac { 1 }{ 2 } { \sum _{ i=1 }^{ n }{ { [h }_{ \theta }({ x }^{ (i) })-{ y }^{ (i) }]^{ 2 } } }$ 。

0 0