【Machine Learning】Backpropagation 详解

来源：互联网发布：vmware 12 mac版下载编辑：程序博客网时间：2024/06/05 09:37

在一个神经网络中，ln 是第 n 个样本神经网络的输出 yn 与样本标记 y^n 的 cross entropy，即第 n 个样本的 loss function.
总的损失函数可以写为 L=∑n=1Nln.
只要知道 ∂l∂w，再对所有样本加起来，就可以知道总的 loss function 的梯度了，知道梯度之后，不就能使用梯度下降法了？

Backpropagation

下面以这个图为例，讲解怎么求解 ∂l∂w1.
首先，可以从图中看出，w1 只通过节点 z 影响最终的 l，就可以用链式求导法则写为：∂l∂w1=∂l∂z∂z∂w1.
接下来就分为了两部分：

因为 z=w1x1+w2x2+b，所以∂z∂w1=x1.
∂l∂z 不容易直接求得，因为 z 经过 activation function 转变为 a=σ(z)，然后该节点会影响到后面的每一层，从而再影响到输出。因此，可以再做一次链式法则：∂l∂z=∂l∂a∂a∂z，然后：
- ∂a∂z=σ′(z)，这可以直接由 activation function 得到。
- ∂l∂a 不太好求，因为 a 会影响到后面的每一层，但依旧可以通过链式求导法则来展开。假设 a 后面那层有两个节点 z′ 和 z′′，那么有 ∂l∂a=∂l∂z′∂z′∂a+∂l∂z′′∂z′′∂a，而 z′=aw3+⋯，z′′=aw4+⋯，一步步往回代入后就有：

∂l∂z=σ′(z)(w3∂l∂z′+w4∂l∂z′′)
上式可以从另一个角度来看，就是另一种的 neural network 连接方式，即 ∂l∂z′ 和 ∂l∂z′′ 通过权重 w3 和 w4 连接，再通过一个 σ′(z) 的放大，连接到前一个神经元，假设在已经知道 ∂l∂z′ 和 ∂l∂z′′ 的情况下，就可以得到 ∂l∂z 了。这就是 backward 的含义。

那怎么知道 ∂l∂z′ 和 ∂l∂z′′ 呢？

如果 z′ 和 z′′ 已经是最后一层了，它们再经过一个 activation function 就得到了输出 y1 和 y2，则可以直接得出 ∂l∂z′=∂l∂y1∂y1∂z′ 和 ∂l∂z′′=∂l∂y2∂y2∂z′′.
如果 z′ 和 z′′ 不是最后一层，那么它们也是通过后面那层再往后连接的，因此求 ∂l∂z′ 和 ∂l∂z′′，无非就是再把求 ∂l∂z 的过程再重复一遍，直到求到最后一层为止。

综上，要求 ∂l∂w1 ，只需要用 forward pas 求 ∂l∂z，用 backward pass 求 ∂z∂w1，两者都求出来之后，就得到了梯度。

阅读全文

0 0