Stanford公开课机器学习---week2-1.多变量线性回归（Linear Regression with multiple variable）

来源：互联网发布：中国网络电视在线大全编辑：程序博客网时间：2024/04/28 01:14

3.多变量线性回归（Linear Regression with multiple variable）

3.1 多维特征(Multiple Features)

n 代表特征的数量
x(i)代表第 i 个训练实例,是特征矩阵中的第 i 行,是一个向量(vector)。
x(i)j代表特征矩阵中第 i 行的第 j 个特征,也就是第 i 个训练实例的第 j 个特征。

多维线性方程：

$h θ = θ 0 + θ 1 x + θ 2 x + . . . + θ n x$

这个公式中有 n+1 个参数和 n 个变量,为了使得公式能够简化一些,引入 x0=1, 所以参数θ和训练样本X都是n+1 纬的向量
θ=⎛⎝⎜⎜⎜⎜θ0θ1⋮θn⎞⎠⎟⎟⎟⎟
X=⎛⎝⎜⎜⎜⎜x0x1⋮xn⎞⎠⎟⎟⎟⎟

多维线性方程简化为：

$h θ = θ T X$

这里写图片描述

3.2 多变量梯度下降(Gradient descent for multiple variables)

cost function :

$J (θ) = 1 2 m \sum 1 m (h θ (x (i)) - y (i)) 2$
在 Octave 中,写作: J = sum((X * theta - y).^2)/(2*m);

梯度下降公式：
$θ j : = θ j - α \partial \partial θ j J (θ 0, θ 1)$ $= θ j - α 1 m \sum 1 m （ (h θ (x (i)) - y (i)) \cdot x (i) j ）$
在 Octave 中,写作:
$t h e t a = t h e t a - a l p h a / m * X' * (X * t h e t a - y);$

这里写图片描述

3.3 特征缩放(feature scaling)

以房价问题为例,假设我们使用两个特征,房屋的尺寸和房间的数量,尺寸的值为 0- 2000 平方英尺,而房间数量的值则是 0-5,绘制代价函数的等高线图,看出图像会显得很扁,梯度下降算法下降的慢，而且可能来回震荡才能收敛。
这里写图片描述

mean normalization

解决的方法是尝试将所有特征的尺度都尽量归一化到-1 到 1 之间。最简单的方法是令xi−μi 代替 xi,使得特征的平均值接近0（x0除外） :

x n = x n - μ n s n

其中

μn是平均值,

sn 是标准差

sn 或特征范围

max(xi)−min(xi)

这里写图片描述

3.4 学习率(Learning rate)

确保梯度下降working correctly
绘制迭代次数和代价函数的图表来观测算法在何时趋于收敛。下降说明正常

若增大或来回波动，可能是α过大

这里写图片描述

2.如何选取 α
先在10倍之间取，找到合适的区间后，在其中再细化为3倍左右(log)
We recommend trying values of the learning rate α on a log-scale, at multiplicative steps of about 3 times the previous value
α=…,0.001,0.01,0.1,1,…
α=…,0.001,0.03,0.01,0.03,0.1,0.3,1,…