神经网络与深度学习学习笔记：正向传播与反向传播(未完)

来源：互联网发布：键盘编程编辑：程序博客网时间：2024/06/05 03:17

反向传播

推导反向传播的最终结果：

正好在推这个，先写反向传播吧。
以前文的两层神经网络为例，反向传播的起点为损失函数(也是正向传播的终点)：

z [i] a [i] J (w, b) = w [i] * a [i - 1] + b [i] = g [i] (z [i]) = 1 m \sum i = 1 m L (a [l] i, y)

损失函数：

L (a [2], y) = - y ln a [2] - (1 - y) ln (1 - a [2])

计算(此处假设

g[2](x)=σ(x)，而

g[1](x)未知)：

d a [2] = \partial L \partial a [ 2 ] = - y a [ 2 ] + 1 - y 1 - a [ 2 ]

d z [2] = \partial L \partial z [ 2 ] = = = \partial L \partial a [ 2 ] * \partial a \partial z [ 2 ] d a [2] * a [2] * (1 - a [2]) a [2] - y

d w [2] = = \partial L \partial z [ 2 ] * \partial z [ 2 ] \partial w [ 2 ] d z [2] * a [1]

d b [2] = = \partial L \partial z [ 2 ] * \partial z \partial b [ 2 ] d z [2]

d a [1] = = \partial L \partial z [ 2 ] * \partial z [ 2 ] \partial a [ 1 ] w [2] d z [2]

d z [1] = = \partial L \partial a [ 1 ] * \partial a [ 1 ] \partial z [ 1 ] w [2] d z [2] g [1]' (z [1])

d w [1] = = \partial L \partial z [ 1 ] * \partial z [ 1 ] \partial w [ 1 ] a [0] d z [1]

d b [1] = = \partial L \partial z [ 1 ] * \partial z [ 1 ] \partial b [ 1 ] d z [1]

注意上述过程的推导中忽视了矩阵求导法则，严格来说只适用于单特征单样本的情况；当网络中数据流为多特征多样本时，需要使用矩阵求导法则。

阅读全文

0 0