【斯坦福《机器学习》笔记】[第2集] 监督学习应用.梯度下降

来源：互联网发布：天猫数据采集编辑：程序博客网时间：2024/05/17 01:03

大纲

线性回归（Linear regression）
梯度下降（Gradient descent）
正规方程组（Normal equations）

1.线性回归

1.1 回归

回归问题：预测目标变量连续的学习问题；
分类问题：预测目标变量只有少数离散值的学习问题。

1.2 记号定义

m —— 训练样本个数（#training examples）
x —— 输入变量/特征（input variables/features）
y —— 输出变量/目标变量（output/target variables）
(x,y) —— 训练样本（training examples）
(x(i),y(i)) —— 第i个训练样本（ithtraining example）
h(x) —— 假设（hypothesis）
θ —— 训练参数

1.3 房价问题的假设

假设：

h (x) = h θ (x) = θ 0 + θ 1 x 1 + θ 2 x 2 = \sum i = 0 n θ i x i = θ T X

其中，x0=1，x1=size，x2=#bedrooms，n=2=#features

目标，最小二乘：

m i n J (θ)

J (θ) = 1 2 \sum i = 1 m (h θ (x (i)) - y (i)) 2

2.梯度下降

梯度下降过程：

初始给定随机θ值，如θ=0⃗

如下式更新θ来减小J(\theta)
$θ i : = θ i - α \partial \partial θ i J (θ)$

重复2直至收敛

梯度下降在线性回归中的应用：

\partial \partial θ i J (θ) = \partial \partial θ i 1 2 \sum j = 1 m (h θ (x (j)) - y (j)) 2

= \sum j = 1 m (h θ (x (j)) - y (j)) \partial \partial θ i (h θ (x (j)) - y (j))

= \sum j = 1 m (h θ (x (j)) - y (j)) x (j) i

则每次都用到所有训练样本的”批量梯度下降”公式为：

θ i : = θ i - α \sum j = 1 m (h θ (x (j)) - y (j)) x (j) i

在训练样本集很大时，批量梯度下降因为每次都用所有的样本来更新参数，训练时间开销很大，一种优化为每次只取一个训练样本，称为“随机梯度下降”:

repeat until convergence {
for j=1 to m {

$f o r a l l i, θ i : = θ i - α (h θ (x (j)) - y (j)) x (j) i$
}}

3.正规方程组

3.1 定义引入

矩阵的迹（trace）

在线性代数中，一个n×n的矩阵A的主对角线（从左上方至右下方的对角线）上各个元素的总和被称为矩阵A的迹（或迹数），一般记作tr A。

$t r A = \sum i = 1 m a i i$
特别说明，实数(即1×1矩阵)的迹等于本身，即tr a=a

迹的性质

$t r A = t r A T$
$t r (A + B) = t r A + t r B$
$t r a A = a t r A$
其中，A和B为方阵，a为实数

矩阵导数

\nabla A f (A) = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ \partial f \partial a 11 ⋮ \partial f \partial a m 1 \dots ⋱ \dots \partial f \partial a 1 n ⋮ \partial f \partial a m n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥

矩阵导数相关事实

$\nabla A t r A B = B T (1)$
$\nabla A T f (A) = (\nabla A f (A)) T (2)$
$\nabla A t r A B A T C = C A B + C T A B T (3)$
$\nabla A | A | = | A | (A - 1) T, | A | \neq 0 (4)$
$结合 (2) (3) 得 \nabla A T t r A B A T C = B T A T C T + B A T C (5)$
其中，A、B、C为方阵，a为实数，|A|表示A的行列式

3.2 再看最小二乘法

重新表示J(θ)

J (θ) = 1 2 (X θ - y ⃗) T (X θ - y ⃗)

其中，

X = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ - (x (1)) T - - (x (2)) T - ⋮ - (x (m)) T - ⎤ ⎦ ⎥ ⎥ ⎥ ⎥

y ⃗ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ y (1) y (2) ⋮ y (m) ⎤ ⎦ ⎥ ⎥ ⎥ ⎥

因此，

\nabla θ J (θ) = \nabla θ 1 2 (X θ - y ⃗) T (X θ - y ⃗)

= 1 2 \nabla θ (θ T X T X θ - θ T X T y ⃗ - y ⃗ T X θ + y ⃗ T y ⃗)

= 1 2 \nabla θ t r (θ T X T X θ - θ T X T y ⃗ - y ⃗ T X θ + y ⃗ T y ⃗)

= 1 2 \nabla θ (t r θ T X T X θ - 2 t r y ⃗ T X θ)

= 1 2 (X T X θ + X T X θ - 2 X T y ⃗)

= X T X θ - X T y ⃗

其中，
第3步依据

a=tra;
第4步依据

tr A=tr AT;
第5步依据等式(5)和等式(1)，等式(5)中令

AT=θ,B=BT=XTX,and C=I

为了最小化J(θ)，令它的导数为0，我们就得到了正规方程组：

X T X θ = X T y ⃗

因此，最小化J(θ)的θ解析解为：

θ = (X T X) - 1 X T y ⃗

0 0