[deeplearning-003] 一般形式的反向传导算法BP最简推导-1

来源：互联网发布：2016淘宝刷单编辑：程序博客网时间：2024/06/08 00:59

1.神经网络结构
设神经网络的层数是p，p≥3。
神经网络有三种层：一个输入层，若干个隐层，一个输出层，分别简称L1，L2，…，Lp。
设每层神经元数量分别是d1，d2，…，dp。每个神经元的应激函数是f(x)。

2.分析第一层和第二层并推导全局变量
设一个样本是x∈Rd1×1，它从L1层输入。

设L1和L2之间的连接权重矩阵是W1，那么:

W 1 \in R d 2 \times d 1

W1的第一行就是:

W 1 [1 :] = [W 1 1, 1, W 1 1, 2, . . ., W 1 1, d 2]

其中，

W11,i，就是

L1层的第

i个神经元和第

L2层的第1个神经元的权重系数。

那么，L2的第一个神经元的激活值，就是:

a 21 = f (W 1 [1 :] x + b 11)

令z21=W1[1:]x+b11，上式又可以写为：

a 21 = f (z 21)

更进一步地，L2的每个神经元激活值可以写为:

a 2 i = f (W 1 [i :]) x + b 1 i), i = 1, . . ., d 2

更进一步地，

Lj+1层的每个神经元激活值可以写为：

a j + 1 i = f (W j [i :]) x + b j i), i = 1, . . ., d j + 1

为简便起见，令

z j + 1 i = W j [i :]) x + b j i

则：

a j + 1 i = f (z j + 1 i), i = 1, . . ., d j

对于输出层

L1，

j=1，

a1i可以视为样本

x的第

i分量。

3.反向传播

3.1 代价函数
设训练集是{(x1,y1),(x2,y2),...,(xm,ym)}，其中，yk∈Rdp×1，这显而易见，输出层的神经元是dp个。

研究一个样本(xk,yk)，对它而言，代价函数是：

J (W 1, W 2, b 1, b 2; x k, y k) = 1 2 ∥ h W 1, W 2, b 1, b 2 (x k) - y k ∥ 2 = 1 2 \sum q = 1 d p (y k q - f (z p, k q)) 2

其中，

ykq表示，第

yk的第

q个分量。

为简便起见，也可以写成

J (W, b; x k, y k) = 1 2 \sum q = 1 d p (y k q - f (z p q)) 2

考虑整个训练集，代价函数是：

J (W, b) = \sum k = 1 m J (W, b; x k, y k)

考虑到对W1和W2进行正则化，以避免过拟合，代价函数是：

J (W, b) = \sum k = 1 m J (W, b; x k, y k) + λ 2 \sum l = 1 p - 1 \sum i = 1 d l \sum j = 1 d l + 1 (W l j, i) 2

阅读全文

0 0