AndrewNg - 线性回归【1】梯度下降

来源：互联网发布：charge是什么软件编辑：程序博客网时间：2024/06/04 23:33

AndrewNg - 线性回归

经典的Ng房屋问题，给定数据集如下：

房 屋 面 积 20141600240014163000 ⋮ 房 间 数 量 33324 ⋮ 价 格 400220369232540 ⋮

x∈R2，

x(i)1表示房屋面积，

x(i)2表示房间数量，首先我们会估计

y是

x是一个线性函数：

hθ(x)=θ(0)+θ(1)x1+θ(2)x2。其中

θi为参数（也称为权重），为了更方便于表达，我们定义

x0=1，所以有：

h θ (x) = \sum i = 1 n θ i x i = θ T x,

其中

n为输入向量中特征个数（不包含

x0）。那么对于给定的训练集，我们如何选择或学习得出

θ？在这里我们选取的方法是让

hθ(x)尽量的接近于

y ，所以我们得到成本函数（

cost function-最小二乘法）如下：

J (θ) = 1 2 \sum i = 1 m (h θ (x (i)) - y (i)) 2

我们的目标是选取可以使J(θ)最小的的θ。为了得到最终的θ，一般我们会给θ赋上初值，通过相关的算法对θ迭代求值，知道θ收敛。这里提及的是梯度下降法，迭代式如下：

θ j : = θ j - α \partial \partial θ j J (θ) .

当然，

θ0,...,θn是同时迭代更新的。这里的

α我们是用来控制学习速率的参数。当然写代码的时候式子中的偏导还得再求一下，为了计算方便起见，假设我们先只有一个样本

(x,y)，即

J(θ)中的求和符号先忽略一下：

\partial \partial θ j J (θ) = \partial \partial θ j 1 2 (h θ (x) - y) 2 = (h θ (x) - y) \partial \partial θ j (h θ (x) - y) = (h θ (x) - y) \partial \partial θ j (\sum i = 0 n θ i x i - y) = (h θ (x) - y) x j

所以对于一个训练样本来说，迭代式会变成：

θ j : = θ j + α (y (i) - h θ (x) (i)) x (i) j .

要将上边的迭代式拓展到含

m样本的训练集上，我们一般用到的有两种修改方法，其一如下：

L o o p u n t i l c o n v e r g e n c e : {θ j : = θ j + α \sum i = 1 m (y (i) - h θ (x) (i)) x (i) j (f o r e v e r y j) .}

很明显这个算法每一次的迭代都要遍历整个训练集，所以起名叫批量梯度下降。我们说沿着梯度方向总能够找到局部最优解（说明问题的优化与初值有关），而且我们这里的问题还是一个凸二次函数，说明它只有一个局部最优解就是全局最优解。

这里写图片描述

可以看到图中是初值为(48,30)时梯度下降法的迹。与批量梯度下降法对应，随机梯度下降法相对来说更适合比较大的数据集：

L o o p u n t i l c o n v e r g e n c e : {f o r i t o m {θ j : = θ j + α (y (i) - h θ (x) (i)) x (i) j (f o r e v e r y j) .}}

相比于批量梯度下降法每次都要遍历训练集才能更新

θ来说，随机梯度下降立杆见影，每一步都会对

θ有一个调整，不过其最后只能接近最优而到不了真正的最优。

换一种方法，用公式直接推导出θ的值，规范形方程（normal equations），简单粗暴！

0 0