神经网络学习笔记(十一):多层感知机(下)
来源:互联网 发布:app软件著作权登记 编辑:程序博客网 时间:2024/05/16 11:39
在上一章节中介绍了多层感知机最关键的BP算法,在这一节中主要对包括BP算法在内的多层感知机的一些细节问题进行概述。
激活函数
这里,是神经元j的诱导局部域。根据这种非线性性,输出的范围位于之内。对式(1.1)两边取的微分,得:
(1.2)
由于,所以导数可以表示为:
(1.3)
如果神经元j位于输出层,,其中为输出层的神经元j的输出结果。因此神经元j的局域梯度可表示为:
(1.4)
这里是输出层的神经元j的期望响应。对任意一个隐藏层的神经元,可以将局域梯度表示为:
(1.5)
从式(1.3)可以看出,导数当=0.5时取最大值,当=0或1时取最小值0。因此突触权值改变最多的是那些函数信号位于他们的中间范围之间的网络神经元。正是反向传播的这个特点导致它作为学习算法的稳定性。
2、双曲正切函数:
(1.6)
它对的导数如下:
(1.7)
如果神经元j位于输出层,它的局域梯度是:
(1.8)
如果神经元j位于隐藏层,有:
(1.9)
对logistic函数用(1.4)以及(1.5),对双曲函数使用(1.8)以及(1.9),不需要激活函数的具体信息就可以计算局域梯度。
学习率:
这里a称为动量常数,通常是正数,为了观察动量常数对突触权值的影响,将式(1.10)重写为一个时间序列:
(1.11)
又由于等于,因此
(1.12)
在这个关系的基础上,来做深入的分析:
1、当前修正值代表指数加权的时间序列的和。欲使时间序列收敛,动量常量的绝对值必须限制在0到1之间。当a等于0时,相当于(1.10)中没有第一项。
2、当偏导数在连续迭代中有相同的代数符号,指数加权和在数量上增加,所以,权值被大幅调整。趋于在稳定的下降方向加速下降。
3、当偏导数在迭代中有相反的代数符号,指数加权和在数量上减少,所以,权值调整不大。迭代中呈现一种左右摆动的稳定效果。
停止准则
当每一回合的均方误差变化的绝对速率足够小时,我们认为反向传播算法已经收敛。
但是这两个收敛准则都有其明显缺点。另外一个收敛准则就是检查神经网络的泛化性能,当泛化性能达到峰值时,停止迭代。
下面给出反向传播算法计算局域梯度的一个信号流程图
- 神经网络学习笔记(十一):多层感知机(下)
- 神经网络学习笔记(九):多层感知机(上)
- 神经网络学习笔记(十):多层感知机(中)--BP算法
- 机器学习笔记(XV)神经网络(II)感知机和多层网络
- 深度学习笔记二:多层感知机(MLP)与神经网络结构
- 神经网络学习笔记(五):感知机
- Keras学习笔记(2)——多层感知机
- 神经网络基本介绍(四):前馈网络(下)多层感知机
- MLP(多层感知器)神经网络
- 神经网络学习笔记(六):感知机收敛定理
- 神经网络学习笔记(一) 单层感知机
- 学习笔记TF026:多层感知机
- HelloDNN,多层感知机MLP学习笔记
- Theano深度学习笔记(三)多层感知器
- 单层神经网络、多层感知机、深度学习的总结
- 神经网络学习笔记(一)感知器神经网络
- 【深度学习笔记】多层感知机,非权值共享型卷积神经网络,权值共享型卷积神经网络之间的关系
- 【深度学习笔记】多层感知机,非权值共享型卷积神经网络,权值共享型卷积神经网络之间的关系
- Android TouchEvent事件
- DLL与COM(2)
- Linux查看机器负载
- 使用 Addr2line 将函数地址解析为函数名
- 大数据可视化
- 神经网络学习笔记(十一):多层感知机(下)
- 技术讲座:.NET委托、事件及应用兼谈软件项目开发
- java中HashMap的用法
- 常用的 Python 调试工具
- 决心
- Oracle执行计划详解
- WP ImageBrush & Image裁剪图像
- CentOS下重装Mysql--yum方式
- ArcGIS Engine 绑定许可