CNN、BP算法

来源：互联网发布：淘宝女装店软文编辑：程序博客网时间：2024/05/19 19:41

转载，这个讲解比较清晰，看完就知道CNN、BP算法反向是怎么从倒数第二层计算各层的残差和net的 w、b 参数的，算完整个网络的链接权值、参数就更新了一遍，经过N此迭代，最终的结果达到一定的程度，就可以停止了，使用当时计算好的权值，也就是网络就可以预测了

http://blog.csdn.net/hungryof/article/details/50436231

首先跟大家说声新年快乐啊，刚刚步入16年啊，啊哈哈。额，您继续看。。
暂时只包含全连接的BP，至于conv的。。

预先说明

由于有些人实在太蠢，没办法只能加上这一段。首先，这里面什么看成变量，什么看成常量。
变量：网络的权值W（偏置b默认在W内。）以及输入X。
常量：就是target
你可能会说呃呃呃，不是输入都是有值得吗，不都是数吗，怎么会是变量啊。。我还能说什么呢？一般来说网络的反向传播就是两种类型。一种是更新网络权值W，这是属于常规的，一种是更新输入X。不管哪种情况，我们都要把W和X看成变量，才能有反向传播。
推导过程中，W和X都是变量，输出是W和X的函数。

字母说明

W(l)ij:第l层到第l+1层的权值，并且是l层的第j个单元到l+1层的第i个单元的权值。
Z(l)i:第l层的第i个结点的输入和。
显然Z(l)i=∑s(l−1)j=0Wl−1ijxj , 其中sl−1代表l−1层的结点个数（不计算偏置单元)。可以这样说，第0个单元是偏置，1~s(n−1)是权重项。
a(l)i：表示第l层的第i个结点的激活值，就是下面说的out的输出，或是说a=f(net)，写成a=f(z)也是一样的。
δ(l)i: 叫做“残差”，这里表示第l层的第i个节点的残差。这个非常重要，残差的定义就是——总的代价函数对于某个节点的“net”的偏导。注意的是这里的“net”指的是W*x+b这样的函数结构。可以这样看网络：

现在只需要看每个结点是如何处理数据的。不要看箭头，可以看到，h1和h2再加上“1”共三个结点输入，构成输入x⃗ , 而相应的权值W⃗ 是w5,w6,b2, 也就是说 W⃗ ∗x⃗ 就是这里的“net”，然后“out”是指激活后的值，就是f(net). 残差就是∂E∂net,*不是∂E∂out哦！

BP算法细节

参数说明：假设有n层。J表示代价函数，和上面的E是同样的意思，只不过用不同的字母写而已。
1: 首先当然是正向计算咯，分别求出L2,L3,...直至最后一层Ln的激活值。我们这里把输入当做第一层。下面是真正的反向传播。

2: 对于第n层（最后一层是特殊的，必须单独拿出来）每个输出单元i,下面的l的值为n, 计算每个结点的残差：

δ (l) i = \partial J ( W , b ; x , y ) \partial z ( l ) i = \partial \partial z ( l ) i 1 2 ∥ ∥ y - h W, b (x) ∥ ∥ 2 = - (y i - a (l) i) \cdot f' (z (l) i)

注意：这里最后乘上了对“net”的导，如果是用sigmoid的函数的话，根据

f′(z(l)i)=a(l)i(1−a(l)i), 最后一层的第

i个结点的残差

δ(l)i=−(yi−a(l)i)∙a(l)i(1−a(l)i)

3：从倒数第二层开始，也就是说 l=n−1,n−2,n−3,...,2 的各层,第l层的第i个结点的残差计算：

δ (l) i = ⎛ ⎝ \sum j = 1 s l + 1 W (l) j i δ (l + 1) j ⎞ ⎠ f' (z (l) i)

分析：要想知道第

l层的第

i个结点的残差，必须知道该节点所连接的下一层的各个结点的权值，以及这些结点的残差，幸亏第

l+1层已经计算出来了残差，你只要把后面一层的每个结点

j的残差乘以该结点与这一层的结点

i相连的权值，然后加和，最后别忘了乘以这一层的激活方式的导数。不吹不黑，如果你不太懂得话，这段话可以够你看10遍，你就懂了。

4: 你可能会说要残差干嘛？当然是计算∂J∂w和∂J∂b用的。
只要：

\partial \partial W ( l ) i j J (W, b; x, y) = a (l) j δ (l + 1) i \partial \partial b ( l ) i J (W, b; x, y) = δ (l + 1) i

结论：求J对“结点j到i的线路”的导数，求出后者i的残差，然后乘以这条线路的流量即可。

分析：其实是这样的，Wlij是第l层到l+1层的权值，并且是从结点j到结点i的权值。根据链式法则：

\partial J ( W , b ; x , y ) \partial w ( l ) i j = \partial J ( W , b ; x , y ) \partial o u t i * \partial o u t i \partial n e t i * \partial n e t i \partial w i j

请仔细看上面的公式，好好理解。
残差的定义就是

∂J(W,b;x,y)∂neti，根据链式法则：

δ (l + 1 ） i = \partial J ( W , b ; x , y ) \partial n e t i = \partial J ( W , b ; x , y ) \partial o u t i * \partial o u t i \partial n e t i

这下明白了吧，就是说第

l+1层，

\partial J \partial w ( l ) i j = δ (l + 1) i * \partial n e t i \partial w i j = δ (l + 1) i a (l) j

注意，第

l+1层的

∂neti∂wij就是该层的输入，也就是第

l层的输出

a(l)j.

最后一个问题，为啥

δ (l) i = ⎛ ⎝ \sum j = 1 s l + 1 W (l) j i δ (l + 1) j ⎞ ⎠ f' (z (l) i)

呢?

δ (l - 1) i = \partial \partial z ( l - 1 ) i J (W, b; x, y) = \partial \partial z ( l - 1 ) i 1 2 ∥ ∥ y - h W, b (x) ∥ ∥ 2 = \partial \partial z ( l - 1 ) i 1 2 \sum j = 1 S l (y j - a (l) j) 2 = 1 2 \sum j = 1 S l \partial \partial z ( l - 1 ) i (y j - a (l) j) 2 = 1 2 \sum j = 1 S l \partial \partial z ( l - 1 ) i (y j - f (z (l) j)) 2 = \sum j = 1 S l - (y j - f (z (l) j)) \cdot \partial \partial z ( l - 1 ) i f (z (l) j) = \sum j = 1 S l - (y j - f (z (n l) j)) \cdot f' (z (l) j) \cdot \partial z ( l ) j \partial z ( l - 1 ) i = \sum j = 1 S l δ (l) j \cdot \partial z ( l ) j \partial z ( l - 1 ) i = \sum j = 1 S l ⎛ ⎝ δ (l) j \cdot \partial \partial z ( l - 1 ) i \sum k = 1 S (l - 1) f (z (l - 1) k) \cdot W (l - 1) j k ⎞ ⎠ = \sum j = 1 S l δ (l) j \cdot W (l - 1) j i \cdot f' (z (l - 1) i) = ⎛ ⎝ \sum j = 1 S l W (l - 1) j i δ (l) j ⎞ ⎠ f' (z (l - 1) i)

慢慢看，看懂问题不大。

编码

进行前馈传导计算，利用前向传导公式，得到 L2,L3,… 直到输出层 Ll 的激活值。
对输出层（第 l层），计算：
$δ (n l) = - (y - a (n l)) ∙ f' (z (n l))$
对于l=nl−1,nl−2,nl−3,…,2 的各层，计算：
$δ (l) = ((W (l)) T δ (l + 1)) ∙ f' (z (l))$
计算最终需要的偏导数值：
$\nabla W (l) J (W, b; x, y) = δ (l + 1) (a (l)) T, \nabla b (l) J (W, b; x, y) = δ (l + 1) .$

最后说明一点，BP传播，计算各层的各点的残差是关键，残差是总的代价函数对于该点的net的偏导，从倒数第二层开始，求残差就要用到其后面的一层的各个残差，只要用后面一层的各个结点残差乘以其与这一层这个的结点所连接的权值，再求和，最后乘以这一层这个结点的out对net的偏导就可以了。如此一来，残差乘以这个结点的输入，就可以得到整个代价函数对于这个结点的w偏导了。

0 0