Backpropagation

来源：互联网发布：网络打印机搜索不到编辑：程序博客网时间：2024/05/29 04:56

Backpropagation

@[深度学习, 向后传播算法]

Backpropagation
- 代价函数相关的两个假设
- Hadamard product
- Backpropagation的四个基本等式
- 证明
- backpropagation算法

wjkl表示(l−1)th层的第k个神经元和第lth层的第j个元素的连接

神经网络权重

enter image description here

blj第l层神经元的bias
aij第l层神经元的activation

a l j = σ (\sum k w l j k a l - 1 k + b l j), (1)

wljk:j 的范围是第l层神经元的个数，k的范围是第(l−1)层神经元的个数，这个表示方便将公式表示为矩阵的形式

a l = σ (w l a l - 1 + b l) . (2)

这里al−1是第l层的激活神经元

代价函数相关的两个假设

backpropagation的目标就是计算代价函数对w和b的偏导

二次代价函数的形式：

C = 1 2 n \sum x ∥ y (x) - a L (x) ∥ 2, (3)

假设1：代价函数能够被写成C=1n∑xCx,需要这个假设的原因是backpropagation实际上需要我们计算的是对单个训练样本的偏导（∂Cx∂w 和 ∂Cx∂b）
假设2：代价函数能够被写成神经网络输出的函数

例如：二次代价函数能够写成：

C = 1 2 ∥ y - a L ∥ 2 = 1 2 \sum j (y j - a L j) 2, (4)

Hadamard product

[12] ⊙ [34] = [1 * 3 2 * 4] = [38] . (5)

Backpropagation的四个基本等式

backpropagation是为了理解在神经网络中改变weights和biases是怎样改变代价函数，最终，意味着计算偏导∂C∂wljk 和 ∂C∂blj

为了计算偏导，我们首先计算中间量，δlj,表示lth层第j个神经元的error

z l j = (\sum k w l j k a l - 1 k + b l j), (6)

δ l j \equiv \partial C \partial z l j . (7)

backpropagation给了一个对每层计算δl的方法

误差在输出层的等式

δ L j = \partial C \partial a L j σ' (z L j) . (BP1)

∂C/∂aLj衡量了以第

jth个激活元为函数的变化速率
*

σ′(zLj)衡量了sigmoid函数对

zLj的变化速率
*

∂C/∂aLj的精确形式取决于代价函数的选择，例如针对二次代价函数而言
* 当

σ(zLj)趋近于0或1的时候，

σ′(zLj)≈0，

δLj也会变的很小，可以说输出神经元已经饱和，weight开始停止学习或学习的很慢

C=12∑j(yj−aj)2
∂C∂aLj=(aj−yj)

$δ L = \nabla a C ⊙ σ' (z L) . (BP1a)$
二次代价函数的δL
$δ L = (a L - y) ⊙ σ' (z L)$

在式子中都有较好的向量形式，因此容易利用Numpy等库进行计算

下一层误差等式,δl+1

δ l = ((w l + 1) T δ l + 1) ⊙ σ' (z l), (BP2)

总结而言：
* 当输出神经元的状态是low-activation或者sturated时，weight将会缓慢的学习
* 这四个公式对任何形式的激活函数都有用

An equation for the rate of change of the cost with respect to any bias in the network:

\partial C \partial b l j = δ l j (BP3)

\partial C \partial b = δ, (BP3a)

An equation for the rate of change of the cost with respect to any weight in the network

\partial C \partial w l j k = a l - 1 k δ l j . (BP4)

\partial C \partial w = a i n δ o u t, (BP4a)

证明

（BP1）

δ L j = \partial C \partial a L j σ' (z L j) . (BP1)

$δ L j = \partial C \partial z L j$
链式法则
$δ L j = \partial C \partial a L j \partial a L j \partial z L j$

(BP2)

δ l = ((w l + 1) T δ l + 1) ⊙ σ' (z l), (BP2)

$δ l j = \partial C \partial z l j = \sum k \partial C \partial z l + 1 k \partial z l + 1 k \partial z l j = \sum k \partial z l + 1 k \partial z l j δ l + 1 k, (链式法则) (a) (b)$
$z l + 1 k = \sum j w l + 1 k j a l j + b l + 1 k = \sum j w l + 1 k j σ (z l j) + b l + 1 k$

(BP3)

\partial C \partial b l j = δ l j (BP3)

$\partial C \partial b l j = \partial C \partial z l j \partial z l j \partial b l j$
$\partial z l j \partial b l j = 1$

(BP4)

\partial C \partial w l j k = a l - 1 k δ l j . (BP4)

$\partial C \partial w l j k = \partial C \partial z l j \partial z l j \partial w l j k (链式法则)$
$z l j = \sum k w l j k a l - 1 k + b l j$

backpropagation算法

backpropagation equations 提供了一个计算代价函数梯度的方式

输入 x :设置相应的 activation a1为输入层

Feedforward： 对每一层l=2,3,...,L计算zl=wlal−1+bl 和 al=σ(zl)

Output error (输出层误差) ： 计算向量δL=∇aC⊙σ′(zL)

Backpropagate the error : 对每一层l=L−1,L−2,...,2计算δl=((wl+1)Tδl+1)⊙σ′(zl)

输出 : 计算代价函数的梯度，通过 ∂C∂wljk=al−1kδlj和∂C∂blj=δjl

mini-batch:(随机梯度下降结合backpropagation)
1. 输入一组训练样本
2. 对每个训练样本：设置相应的输入激活元ax,1
- Feedforward： 对每一层l=2,3,...,L计算zx,l=wlax,l−1+bl 和 ax,l=σ(zx,l)
- Output error (输出层误差) ： 计算向量δx,L=∇aCx⊙σ′(zx,L)
- Backpropagate the error : 对每一层l=L−1,L−2,...,2计算δx,l=((wl+1)Tδx,l+1)⊙σ′(zx,l)
3. 梯度下降： 对每一层 l=L,L−1,...,2,更新权重weights，根据规则

w l \to w l - η m \sum x δ x, l (a x, l - 1) T

b l \to b l - η m \sum x δ x, l

0 0