Deep Learning 学习笔记（三）：神经网络反向传播算法推导

来源：互联网发布：邮件客户端知乎编辑：程序博客网时间：2024/06/03 19:01

0. 前言

茫然中不知道该做什么，更看不到希望。
偶然看到coursera上有Andrew Ng教授的机器学习课程以及他UFLDL上的深度学习课程，于是静下心来，视频一个个的看，作业一个一个的做，程序一个一个的写。N多数学的不懂、Matlab不熟悉，开始的时候学习进度慢如蜗牛，坚持了几个月，终于也学完了。为了避免遗忘，在这里记下一些内容。由于水平有限，Python也不是太熟悉，英语也不够好，有错误或不当的地方，请不吝赐教。

神经网络有非常丰富的资料，在这里只是记录自己学习的过程、内容和心得。

1. 神经网络的表示

首先用一张图来表示多层神经网络的结构，如图1。
多层神经网络结构
图1 神经网络结构图

1.1 符号说明

输入向量x=[x1,x2,…,xn0]T是一个列向量。
标签（label）y未在图中表示，它和x有相同维度。
nl为第L层的神经节点个数。
W(l)∈Rnl×nl−1为第L层的权重矩阵。截距b(l)∈Rnl×1未在图上表示。
Z(l)表示第L层的活动水平向量，
- Z(l+1)i=Σnlj=1(W(l+1)ij×a(l)j+b(l+1)i)，a(0)即为输入向量x
- Z(l+1)=W(l+1)×a(l)+b(l+1),矢量化表示。
f(∙)为激活函数，可以是sigmoid、tanh等。
a(l)=f(Z(l))为第L层的激活向量，即输出向量。
若l层为输出层，定义假设函数hW,b(x)=a(l)

1.2 反向传播算法

神经网络的反向传播算法是建立在最速梯度下降基础上的，希望误差的能量函数最小。对于输入向量x和标签y，定义平方误差能量函数如下：

J (W, b; x, y) = 1 2 ∥ ∥ h W, b (x) - y ∥ ∥ 2 = 1 2 \sum i = 1 n l (a (l) i - y i) 2

我们要找到一个合适的W和b，使

J(W,b;x,y)最小，即

m i n i m i z e W, b J (W, b; x, y) (1)

使用梯度下降法:

W = W - α \nabla W (2)

b = b - α \nabla b (3)

α为学习率。
下面通过推导求

∇W,∇b。

\partial J \partial W ( l ) i j = \partial J \partial Z ( l ) i \partial Z ( l ) i \partial W ( l ) i j = \partial J \partial a ( l ) i \partial a ( l ) i \partial Z ( l ) i a (l - 1) j = \partial J \partial a ( l ) i f' (Z (l) i) a (l - 1) j (4)

\partial J \partial b ( l ) i = \partial J \partial Z ( l ) i \partial Z ( l ) i \partial b ( l ) i = \partial J \partial a ( l ) i \partial a ( l ) i \partial Z ( l ) i = \partial J \partial a ( l ) i f' (Z (l) i) (5)

令误差项(大部分教材中，都把误差项分配到

l+1层，但从个人编程的角度理解，把它归入到

l层更方便)

δ (l) i = \partial J \partial a ( l ) i f' (Z (l) i) (6)

，代入(4)(5)式，有：

\partial J \partial W ( l ) i j = δ (l) i a (l - 1) j (7)

\partial J \partial b ( l ) i = δ (l) i (8)

或矢量化形式：

\nabla W (l) = \partial J \partial W ( l ) = δ (l) (a (l - 1)) T (9)

\nabla b (l) = \partial J \partial b ( l ) = δ (l) (10)

其中：

δ (l) = [δ (l) 1, \dots, δ (l) n l] T, a (l - 1) \in R n l - 1 \times 1, \nabla W (l) \in R n l \times n l - 1, \nabla b (l) \in R n l \times 1

若

l层为输出层，则:

\partial J \partial a ( l ) i = \partial ( \sum n l k = 1 1 2 （ a ( l ) k - y k ） 2 ） \partial a ( l ) i = a (l) i - y i (11)

则:

δ (l) i = \partial J \partial a ( l ) i f' (Z (l) i) = (a (l) i - y i) f' (Z (l) i) (12)

或

δ (l) = (a (l) - y) ∙ f' (Z (l)) (13)

(12)式中的“

∙”是向量和矩阵中元素相乘运算符。
若

l层是隐藏层，我们还需要对

∂J∂a(l)i做进一步的处理。函数J是向量

Z(l+1)的函数，而它的每个元素又是

a(l)i的函数。根据复合函数求导公式，对J求

a(l)i的偏导数有：

\partial J \partial a ( l ) i = \sum j = 1 n l + 1 \partial J \partial Z ( l + 1 ) j \partial Z ( l + 1 ) j \partial a ( l ) i = \sum j = 1 n l + 1 \partial J \partial a ( l + 1 ) j \partial a ( l + 1 ) j \partial Z ( l + 1 ) j \partial Z ( l + 1 ) j \partial a ( l ) i

= \sum j = 1 n l + 1 \partial J \partial a ( l + 1 ) j f' (Z (l + 1) j) W (l + 1) j i = \sum j n l + 1 δ (l + 1) j W (l + 1) j i = (W (l + 1) (, i)) T δ (l + 1) (14)

代入(6)式，有

δ (l) i = (W (l + 1) (, i)) T δ (l + 1) f' (Z (l) i) (15)

矢量化后有

δ (l) = ((W (l + 1)) T δ (l + 1)) ∙ f' (Z (l)) (16)

至此推导完成。

1.3 批量学习的函数形式

在上一节中x是一个向量，如果有m个向量，定义输入矩阵X和标签y：

X = [x (1), \dots, x (i), \dots, x (m)] ， y = [y (1), \dots, y (i), \dots, y (m)] T

其中

x(i)为具有n个特征的列向量，

y(i)为表示类别的标量。
代价函数：

J (W, b) = 1 m \sum i = 1 m J (W, b; x (i), y (i)) = 1 m \sum i = 1 m 1 2 ∥ ∥ h W, b (x (i)) - y (i) ∥ ∥ 2

a (0) = X, Z (l) = W (l) \times X, a (l) = f (Z (l)), l = 1 \dots n l

对于梯度

\nabla W (l) = 1 m δ (l) (a (l - 1)) T

\nabla b (l) = 1 m \sum i = 1 m δ (i)

和误差项

δ (l) = (W (l)) T \times δ (l + 1) ∙ f' (Z (l))

1.4 规范化

为了防止过拟合（overfiting），需要对误差函数和W梯度添加L2范式惩罚项。假定网络有L层，

J (W, b) = 1 m \sum i = 1 m 1 2 ∥ ∥ h W, b (x (i)) - y (i) ∥ ∥ 2 + λ 2 \sum l = 1 L \sum i = 1 n l \sum j = 1 n l - 1 (W (l) i j) 2

\nabla W (l) = 1 m δ (l) (a (l - 1)) T + λ W (l)

2. 算法描述

重复直到收敛{
- 执行前向传播，得到各层的激活值
- 计算最后一层的δ
- 反向传播计算各层δ
- 计算各层W和b的梯度
- 使用梯度下降更新W和b
}

0 0