神经网络学习笔记（五）

来源：互联网发布：空间日志软件编辑：程序博客网时间：2024/06/06 04:16

上一章我们讨论了求输出层激励的梯度和输出层预激励的梯度的方法，可以发现，求解过程极其复杂，本章将从链式法则入手，推导出各隐层的参数梯度的一般形式。

一、链式求导法则

回顾高数的知识，若一个函数可写成若干个中间结果，即p(a)=p(q1(a),...qi(a),...,qn(a))，则有

\partial p ( a ) \partial a = \sum i \partial p ( a ) \partial q i ( a ) \partial q i ( a ) \partial a

即所谓“连线相乘，分线相加”。
为了求隐层参数梯度，可以令：

参数含义

a 某隐层中的某个单元

qi(a) 上一个隐层的预激励

p(a) 误差函数

这里写图片描述

如上图所示，对于第2个隐层的第j个单元，按照上述对应关系，我们有：

参数此处对应的元素

h(2)(x)j

qi(a)

a(3)(x)i

p(a)

l(f(x),y)

对于第k个隐层的第j个隐层单元，根据上述链式求导法则，其误差偏导有：

\partial \partial h ( k ) ( x ) j - l o g f (x) y = \sum i \partial - l o g f ( x ) y \partial a ( k + 1 ) ( x ) i \partial a ( k + 1 ) ( x ) i \partial h ( k ) ( x ) j

注意到

h(k)(x)j和

a(k+1)(x)i有如下关系：

a (k + 1) (x) i = b (k + 1) i + \sum j W (k + 1) i, j h (k) (x) j

于是

原 式 = \sum i \partial - l o g f ( x ) y \partial a ( k + 1 ) ( x ) i W (k + 1) i, j = (W \cdot, j) T (\nabla a (k + 1) (x) - l o g f (x) y)

求出偏导的通式后，其梯度也非常简单，有：

\nabla h (k) (x) - l o g f (x) y = (W (k + 1)) T (\nabla a (k + 1) (x) - l o g f (x) y)

先来求单个第k隐层的第j单元的预激励误差偏导。继续使用链式求导法则，有：

\partial - l o g f ( x ) y \partial a ( k ) ( x ) j = \partial - l o g f ( x ) y \partial h ( k ) ( x ) j \partial h ( k ) ( x ) j \partial a ( k ) ( x ) j

注意到激励分量

h(k)(x)j和预激励分量

a(k+1)(x)j的关系为：

h (k) (x) j = g (a (k) (x) j)

又因为

∂−logf(x)y∂h(k)(x)j在上面已经给出，因此

原 式 = \partial - l o g f ( x ) y \partial h ( k ) ( x ) j g' (a (k) (x) j)

由此，隐层预激励误差梯度为：

\nabla a (k) (x) - l o g f (x) y = (\nabla h (k) (x) - l o g f (x) y) T \nabla a (k) (x) h (k) (x) = (\nabla h (k) (x) - l o g f (x) y) ⊙ [\dots, g' (a (k) (x)), \dots]

其中符号

⊙为元素之间相乘再相加。

0 0