神经网络学习笔记（十一）:多层感知机（下）

来源：互联网发布：app软件著作权登记编辑：程序博客网时间：2024/05/16 11:39

在上一章节中介绍了多层感知机最关键的BP算法，在这一节中主要对包括BP算法在内的多层感知机的一些细节问题进行概述。

激活函数

BP算法中计算多层感知机每一个 $\delta$ 需要神经元的激活函数 $\varphi \left ( \cdot \right )$ 的导数知识。从根本上讲激活函数必须满足的要求是可微性。通常用于多层感知机的连续可微非线性函数的一个例子是sigmoid；这里有两种形式：

1、logistic函数：

$\varphi _{j}\left ( v_{j}\left ( n \right ) \right )=\frac{1}{1+exp\left ( -av_{j}\left ( n \right ) \right )}\ ,a>0$ （1.1）

这里， $v_{j}\left ( n \right )$ 是神经元j的诱导局部域。根据这种非线性性，输出的范围位于 $0\leq y_{j}\leq 1$ 之内。对式（1.1）两边取 $v_{j}\left ( n \right )$ 的微分，得：

$\varphi' _{j}\left ( v_{j}\left ( n \right ) \right )=\frac{aexp\left ( -av_{j}\left ( n \right ) \right )}{\left [ 1+exp\left ( -av_{j}\left ( n \right ) \right ) \right ]^{2}}$ （1.2）

由于 $y_{j}\left ( n \right )=\varphi _{j}\left ( v_{j}\left ( n \right ) \right )$ ，所以导数可以表示为：

$\varphi' _{j}\left ( v_{j}\left ( n \right ) \right )=ay_{j}\left ( n \right )\left ( 1-y_{j}\left ( n \right ) \right )$ （1.3）

如果神经元j位于输出层， $y_{j}\left ( n \right )=o _{j}\left (n\right )$ ，其中 $o _{j}\left (n\right )$ 为输出层的神经元j的输出结果。因此神经元j的局域梯度可表示为：

$\delta _{j}\left (n\right )=e_{j}\left ( n \right )\varphi' _{j}\left ( v_{j}\left ( n \right ) \right )=a\left ( d_{j}\left ( n \right )-o_{j}\left ( n \right ) \right )o_{j}\left ( n \right )\left ( 1-o_{j}\left ( n \right ) \right )$ （1.4）

这里 $d_{j}\left ( n \right )$ 是输出层的神经元j的期望响应。对任意一个隐藏层的神经元，可以将局域梯度表示为：

$\delta _{j}\left (n\right )=\varphi' _{j}\left ( v_{j}\left ( n \right ) \right )\sum_{k}\delta _{k}\left ( n \right )w_{kj}\left ( n \right )=ay_{j}\left ( n \right )\left ( 1-y_{j}\left ( n \right ) \right )\sum_{k}\delta _{k}\left ( n \right )w_{kj}\left ( n \right )$ （1.5）

从式（1.3）可以看出，导数 $\varphi'_{j}\left ( v_{j}\left ( n \right ) \right )$ 当 $y_{j}\left ( n \right )$ =0.5时取最大值，当 $y_{j}\left ( n \right )$ =0或1时取最小值0。因此突触权值改变最多的是那些函数信号位于他们的中间范围之间的网络神经元。正是反向传播的这个特点导致它作为学习算法的稳定性。

2、双曲正切函数：

$\varphi _{j}\left ( v_{j}\left ( n \right ) \right )=atanh\left ( bv_{j}\left ( n \right ) \right )$ （1.6）

它对 $v_{j}\left ( n \right )$ 的导数如下：

$\varphi' _{j}\left ( v_{j}\left ( n \right ) \right )=\frac{b}{a}\left [ a-y_{j}\left ( n \right ) \right ]\left [ a+y_{j}\left ( n \right ) \right ]$ （1.7）

如果神经元j位于输出层，它的局域梯度是：

$\delta _{j}\left (n\right )=e_{j}\left ( n \right )\varphi' _{j}\left ( v_{j}\left ( n \right ) \right )=\frac{b}{a}\left [ d_{j}\left ( n \right )-o_{j}\left ( n \right ) \right ]\left [ a-o_{j}\left ( n \right ) \right ]\left [ a+o_{j}\left ( n \right ) \right ]$ （1.8）

如果神经元j位于隐藏层，有：

$\delta _{j}\left (n\right )=\varphi' _{j}\left ( v_{j}\left ( n \right ) \right )\sum_{k}\delta _{k}\left ( n \right )w_{kj}\left ( n \right )=\frac{b}{a} \left ( a-y_{j}\left ( n \right ) \right )\left ( a+y_{j}\left ( n \right ) \right )\sum_{k}\delta _{k}\left ( n \right )w_{kj}\left ( n \right )$ （1.9）

对logistic函数用（1.4）以及（1.5），对双曲函数使用（1.8）以及（1.9），不需要激活函数的具体信息就可以计算局域梯度 $\delta _{j}$ 。

学习率：

反向传播算法提供使用最速下降方法在权空间计算得到的轨迹的一种近似。使用的学习率参数η越小，从一次迭代到下一次迭代的网络突触权值的变化量越小，轨迹在权值空间就越光滑。然而，这种改进是以减慢学习速度为代价的。另一方面，如果让η的值太大以加快学习速度的话，结果可能使网络的突触权值的变化量不稳定（即震荡）。一个即加快学习速度又要保持稳定的简单方法是如下的广义delta法则：

$\Delta w_{ji}\left ( n \right )=a\Delta w_{ji}\left ( n-1 \right )+\eta \delta _{j}\left ( n \right )y_{j}\left ( n \right )$ （1.10）

这里a称为动量常数，通常是正数，为了观察动量常数对突触权值的影响，将式（1.10）重写为一个时间序列：

$\Delta w_{ji}\left ( n \right )=\eta \sum_{t=0}^{n}a^{n-t}\delta _{j}\left ( t \right )y_{j}\left ( t \right )$ （1.11）

又由于 $\delta _{j}\left ( n \right )y_{j}\left ( n \right )$ 等于 $-\partial \mathbb{E}\left ( n \right )/\partial w_{ji}\left ( n \right )$ ，因此

$\Delta w_{ji}\left ( n \right )=-\eta \sum_{t=0}^{n}a^{n-t}\frac{\partial \mathbb{E}\left ( t \right )}{\partial w_{ji}\left ( t \right )}$ （1.12）

在这个关系的基础上，来做深入的分析：

1、当前修正值 $\Delta w_{ji}\left ( n \right )$ 代表指数加权的时间序列的和。欲使时间序列收敛，动量常量的绝对值必须限制在0到1之间。当a等于0时，相当于（1.10）中没有第一项。

2、当偏导数 $\partial \mathbb{E}\left ( t \right )/\partial w_{ji}\left ( t \right )$ 在连续迭代中有相同的代数符号，指数加权和 $\Delta w_{ji}\left ( n \right )$ 在数量上增加，所以，权值被大幅调整。趋于在稳定的下降方向加速下降。

3、当偏导数 $\partial \mathbb{E}\left ( t \right )/\partial w_{ji}\left ( t \right )$ 在迭代中有相反的代数符号，指数加权和 $\Delta w_{ji}\left ( n \right )$ 在数量上减少，所以，权值调整不大。迭代中呈现一种左右摆动的稳定效果。

停止准则

通常不能证明反向传播算法是收敛的，并且没有明确定义的算法停止准则。相反，仅有一些合理的准则，它们每个都有自己的实际用处，这些准则可以用于终止权值的调整。要提出这样一个准则，考虑关于误差曲面的局部或全局最小的特殊性质是符合逻辑的。将权值向量w*标记为局部或全局最小点。要使w*成为最小点的一个必要条件是梯度向量g(w)在w=w*点为0。可以以此提出一个合理的收敛准则：

当梯度向量的欧几里得范数达到一个充分小的梯度阈值时，我们认为反向传播算法已经收敛。

另一个能够使用的最小点特性是误差度量在w=w*是平稳的，因此可以提出另一个不同的收敛准则：

当每一回合的均方误差变化的绝对速率足够小时，我们认为反向传播算法已经收敛。

但是这两个收敛准则都有其明显缺点。另外一个收敛准则就是检查神经网络的泛化性能，当泛化性能达到峰值时，停止迭代。

下面给出反向传播算法计算局域梯度的一个信号流程图

0 0