人工神经网络 backpropagation algorithm

来源：互联网发布：c语言捕鱼编辑：程序博客网时间：2024/04/30 13:43

ann人工神经网络bp算法python实现

1、单个神经元

1.1、单个神经元的表示方法：

这代表一行数据的处理，即 x1,x2,x3属于一个样本的三个维度，输出为这个样本的激活函数的值。

h W, b (x) = f (z) = f (W T x) = f (\sum 3 i = 1 W i x i + b)

1.2、激励函数几种不同形式：

sigmoid函数
f(z)=11+exp(−z)
- sigmoid函数的导数：
  $f' (z) = f (z) (1 - f (z))$
tanh函数
f(z)=tanh(z)=ez−e−zez+e−z
- tanh函数的导数：
  $f' (z) = 1 - (f (z)) 2$
rectified linear activation function
f(z)=max(0,x)
- 导数为：
f′(z)={01z<=0z>0

以下是这几种损失函数的函数图。

2、神经网络模型

令 nl表示这个神经网络的层数，这个神经网络共有3层，及nl=3。
Ll是输入层，Lnl是输出层，中间为隐含层。

上图中神经网络的参数为：

(W, b) = (W (1), b (1), W (2), b (2))

W(l)ij表示l层到l+1层的权值矩阵或向量，i代表l+1层，j代表l层的索引。
W(1)∈R3×3
W(2)∈R1×3
a(l)i 表示第 i 的激活函数的结果 l
对于输入层即l=1， a(1)i=xi，i表示一个样本的第i列

递推公式为：

a l + 1 i = f (z l + 1 i) = f (W l i \cdot x + b l)

从输入层到输出层的计算详细过程如下：

a 21 a 22 a 23 h W, b (x) = a 31 = = = = f (W 111 x 1 + W 112 x 2 + W 113 x 3 + b 11) f (W 121 x 1 + W 122 x 2 + W 123 x 3 + b 12) f (W 131 x 1 + W 132 x 2 + W 133 x 3 + b 13) f (W 211 x 1 + W 212 x 2 + W 213 x 3 + b 21)

输出层为多层时，神经网络的示意图如下：

3、backpropagation algorithm

每个样本对应的损失为：

J (W, b; x, y) = 1 2 ∥ ∥ h W, b (x) - y ∥ ∥ 2 .

整体的损失函数加上对权重系数的正则化

J (W, b) = = [1 m \sum i = 1 m J (W, b, x i, y i)] + λ 2 \sum l = 1 n l - 1 \sum i = 1 s l \sum j = 1 s l + 1 (W (l) j i) 2 [1 m \sum i = 1 m (1 2 ∥ ∥ h W, b (x) - y ∥ ∥ 2)] + λ 2 \sum l = 1 n l - 1 \sum i = 1 s l \sum j = 1 s l + 1 (W (l) j i) 2

反向传播的算法过程

1、正向传播，计算每层的激励函数值

a l + 1 i = f (z l + 1 i) = f (W l i \cdot x + b l)

2、利用y值和激励函数值计算输出层的’error term’

δ (n l) i = \partial \partial z ( n l ) i 1 2 ∥ ∥ y - h W, b (x) ∥ ∥ 2 = - (y i - a (n l) i) \cdot f' (z (n l) i)

3、利用初值W，计算隐含层的‘error term’

δ (l) i = ⎛ ⎝ \sum j = 1 s l + 1 W (l) j i δ (l + 1) j ⎞ ⎠ f' (z (l) i)

4、计算每个样本的偏导。

\nabla W (l) J (W, b; x, y) \nabla b (l) J (W, b; x, y) = δ (l + 1) (a (l)) T, = δ (l + 1) .

5、计算整体的偏导

\partial \partial W ( l ) i j J (W, b) \partial \partial b ( l ) i J (W, b) = ⎡ ⎣ 1 m \sum i = 1 m \partial \partial W ( l ) i j J (W, b; x (i), y (i)) ⎤ ⎦ + λ W (l) i j = 1 m \sum i = 1 m \partial \partial b ( l ) i J (W, b; x (i), y (i))

6、梯度下降更新

W,b

W (l) i j b (l) i = W (l) i j - α \partial \partial W ( l ) i j J (W, b) = b (l) i - α \partial \partial b ( l ) i J (W, b)

梯度下降更新W,b

$\partial \partial W ( l ) i j J (W, b) \partial \partial b ( l ) i J (W, b) = ⎡ ⎣ 1 m \sum i = 1 m \partial \partial W ( l ) i j J (W, b; x (i), y (i)) ⎤ ⎦ + λ W (l) i j = 1 m \sum i = 1 m \partial \partial b ( l ) i J (W, b; x (i), y (i))$
$\partial J ( W , b ; x , y ) \partial W l j i = = = \partial J ( W , b ; x , y ) \partial z ( l + 1 ) j \cdot \partial z ( l + 1 ) j \partial W l j i \partial J ( W , b ; x , y ) \partial z ( l + 1 ) j \cdot \partial \sum n i = 1 W ( l ) j i a l i + b l i \partial W l j i \partial J ( W , b ; x , y ) \partial z ( l + 1 ) j \cdot a l i$
$δ (n l) j = = = = = \partial J ( W , b ; x , y ) \partial z ( n l ) j \partial 1 2 | | y - h W , b | | 2 \partial z ( n l ) j \partial 1 2 | | y - a ( n l ) j | | 2 \partial z ( n l ) j - (y - a (n l) j) \partial a ( n l ) j \partial z ( n l ) j - (y - a (n l) j) f' (z n l i)$
$\partial J ( W , b ; x , y ) \partial W l j i = = - (y - a (n l) j) f' (z n l i) \cdot a l i δ (n l) j \cdot a l i$
对于隐含层，其误差项通过其后面一层传播而来，对于第L层，相当于L+1 层有sl+1项误差求和而来
$δ l i = = = = = = \partial J ( W , b ; x , y ) \partial z l i \sum j = 1 S l + 1 \partial J ( W , b ; x , y ) \partial z l + 1 j \partial z l + 1 j \partial z l j \sum j = 1 S l + 1 \partial J ( W , b ; x , y ) \partial z l + 1 j \partial ( \sum n i = 1 W l j i a l i + b l i ) \partial z l j \sum j = 1 S l + 1 \partial J ( W , b ; x , y ) \partial z l + 1 j \partial ( \sum n i = 1 W l j i f ( z l i ) + b l i ) \partial z l j \sum j = 1 S l + 1 \partial J ( W , b ; x , y ) \partial z l + 1 j W l j i f' (z l i) \sum j = 1 S l + 1 δ (l + 1) j W l j i f' (z l i)$

4、softmax函数及其求导

输出层激励函数为softmax：

a L j = e z L j \sum k e z L k

交叉熵代价函数为：

C = - \sum k y k l o g a k

关于W和b的偏导为：

\partial C \partial w j k = a L - 1 k (a L j - y j)

\partial C \partial b j = a L j - y j

公式推导过程
softmax函数公式：
$a L j = e z L j \sum k e z L k$
其中
$i f j \partial a j \partial z j = = = = = i \partial \partial z i (e z j \sum k e z k) ( e z j ) ' \sum k e z k - e z j e z j ( \sum k e z k ) 2 e z j \sum k e z k - e z j \sum k e z k \cdot e z j \sum k e z k a j (1 - a j)$
$i f j \partial a j \partial z j \neq i = = = = \partial \partial z i (e z j \sum k e z k) 0 \sum k e z k - e z j e z i ( \sum k e z k ) 2 - e z j \sum k e z k \cdot e z i \sum k e z k - a j a i$
交叉熵代价函数为：
$C = - \sum k y k l o g a k$
$\partial C \partial b j = = = = = = = \partial C \partial z j \cdot \partial z j \partial b j \partial C \partial z j \cdot \partial ( w j k a k + b j ) \partial b j \partial \partial z j (- \sum k y k l o g a k) - \sum k y k 1 a k \cdot \partial a k \partial z j - y j 1 a j a j (1 - a j) - \sum k \neq j y k 1 a k (- a j a k) - y j + a j \sum k y k a j - y j$
$\partial C \partial w j k = a L - 1 k (a L j - y j)$

参考文献
http://ufldl.stanford.edu/tutorial/supervised/MultiLayerNeuralNetworks/

http://blog.csdn.net/xuanyuansen/article/details/41214115

http://blog.csdn.net/u014313009/article/details/51045303

1 0