梯度下降法与反向传播

来源：互联网发布：提升关键词排名软件编辑：程序博客网时间：2024/06/06 12:43

梯度下降法与反向传播

主要内容：

梯度下降法

最优化
梯度下降

反向传播

梯度与偏导
链式法则
直观理解
Sigmoid 例子

1. 梯度下降（Gradient descent）

初始权重不要都置为0，可用高斯分布。 随机初始化的目的是使对称失效。如果所有权重初始化为相同初始值，那么所有的隐藏层单元最终会得到与输入值相关的、相同的函数。

import numpy as npW = np.random.randn(m,n) * 0.001 # 正态分布随机数

在多维变量函数中，函数在某一点的切线的斜率（存在多个，如三维中所有切线组成一个切面）就是方向导数；梯度是一个矢量，其方向上的方向导数最大，其大小正好就是此最大方向导数。

数值梯度：由导数的定义来求解梯度，再迭代更新。特点是不容易出错，但是计算复杂，速度慢。

g r a d = f ( x + h ) - f ( x ) h

解析梯度：由损失函数计算对应的偏导解析式，再由解析式迭代计算梯度。特点是计算速度很快，但是容易出错。

\partial f \partial x

梯度下降迭代：

# 很多神经网络库的核心迭代代码while True:    weights_grad = evaluate_gradient(loss_fun,data,weights)    weights += - step_size * weights_grad # 梯度下降更新权重参数

梯度检查\检测：可以选取部分样例先计算解析梯度和数值梯度，对比较结果和校正，然后采取解析梯度大胆进行解析计算，这个过程就叫做梯度检查。

Mini-Bacth：对整个训练数据集的样本都算一篇损失函数，以完成参数的迭代是一件非常耗时的事情。通常的做法是采样出一个子集在其上计算梯度。

while True:    data_batch = sample_training_data(data,256) # 抽样256个样本作为一个batch    weights_grad = evaluate_gradient(loss_fun,data_batch,weights)    weights += - step_size * weights_grad # 更新权重参数

2. 反向传播（Backpropagation）

链式法则：若函数 u=ψ(t) ， v=ϕ(t) 在点 t可导， z=f(u,v) ，有

\partial z \partial t = \partial z \partial u \partial u \partial t + \partial z \partial v \partial v \partial t

Sigmoid 函数：

f (x) = 1 1 + e - x

其导数：

f' (x) = f (x) (1 - f (x))

2.1 神经网络推导

前向传播

NN model

如图所示，是一个神经网络模型，每个圆圈代表一个神经元，标上 “+1” 的圆圈是偏置点（bias）。用 nl 表示神经网络的层数，此图中 nl=3 ，将第 l 层记为 Ll ，有L1为输入层（input layer）， Lnl为输出层（output layer），其他层为隐藏层（hidden layer）。

神经网络的训练参数为 (W,b) ，此处有 (W,b)=(W(1),b(1),W(2),b(2)) ，其中 W(l)ij 表示第 l 层第 j单元与第 l+1 单元之间的联结参数。本图中有 W(1)∈R3×3 ， W(2)∈R3×3 。

我们用 z(l)i 表示第 l 层第 i单元输入加权和（包括偏置单元），比如

z (2) i = \sum j = 1 n W (1) i j + b (1) i

更一般的有

z (l) i = \sum j = 1 n W (l - 1) i j a (l - 1) j + b (l - 1) i, l \geq 2

用 a(l)i 表示第 l 层第 i单元的激活值（输出值）。当

l=1 时，有

a(1)i=xi ，对所有

a(l)i 有

a (l) i = f (z (l) i) = f (\sum j = 1 n W (l - 1) i j a (l - 1) j + b (l - 1) i), l \geq 2

神经网络用 hW,b(x) 来计算输出结果。本图中的计算如下：

权重更新

这里如果将 a、z、f(⋅) 向量化处理，即

f ([z 1, z 2, z 3]) = [f (z 1), f (z 2), f (z 3)]

则上面的推导可以简化为

参数向量化

更一般的，有

向量参数一般化

上面的计算步骤叫做神经网络的前向传播 。

反向传播

设有一个包含 m 个样例的固定样本集 {(x(1),y(1)),⋯,(x(m),y(m))} 。使用批量梯度下降法（Batch Gradient Descent）来求解神经网络。具体地，单个样例 (x,y) ，其代价函数为

J (W, b; x, y) = 1 2 | | h W, b (x) - y | | 2

那么整体的代价函数为：

J (W, b) = [1 m \sum i = 1 m J (W, b; x (i), y (i))] + λ 2 \sum l = 1 n l - 1 \sum i = 1 s l \sum j = 1 s l + 1 (W (l) j i) 2 = [1 m \sum i = 1 m (1 2 | | h W, b (x) - y | | 2)] + λ 2 \sum l = 1 n l - 1 \sum i = 1 s l \sum j = 1 s l + 1 (W (l) j i) 2

上面的

J(W,b) 定义中第一项是均方差项，第二项是一个正则化项，目的是减小权重的幅度，防止过拟合。

权重衰减参数 λ 用于控制公式中两项的相对重要性。

我们的目标是针对参数 W 和 b 求最小的代价 J(W,b) 。要求解神经网络，首先需使用上文提到的随机初始化方法对参数初始化，然后利用梯度下降法迭代求解。

梯度下降法 中每次迭代都按照如下公式对 W 和 b 进行更新：

W (l) i j b (l) i = W (l) i j - α \partial \partial W ( l ) i j J (W, b) = b (l) i - α \partial \partial b ( l ) i J (W, b)

其中

α 是学习速率，关键步骤是计算偏导数。下面使用反向传播算法来计算偏导数。

未完待续。。。。

阅读全文

0 0