深度网络的学习问题

来源：互联网发布：比特彗星怎么设置网络编辑：程序博客网时间：2024/06/05 21:14

这是一个4层网络随着BP算法每层激励输出的情况，对于这张图可以理解的信息如下：

1 红线在前一百次的训练结果基本一致，可能的情况是第一层的权值变化太小，也就是说后向传播的误差信息很难反馈到这一层;

2 绿线和蓝线的变化幅度反映了后向误差信息随着层数的增加，其变化越小;

3 对于黑线的情况最奇怪：

(1)方差基本为0，也就是说输入层的差异信息在抵达第4层时候基本就没有了

(2)均值快速被压缩为0，也就说输出层的输入 wx+b 近似只有 b了，也就是说所有的输出情况的差异只有第4层的bias来决定

4 对于100～120的情况：

(1)黑色线的均值略微提高，方差变化增加，但是绿线和蓝线的方差变小，说明后向传播的误差信息能够在4层这里反映了;

5 120以后，各层方差显著增加，尤其是红线

6 140时候，前三层的均值都为0.5左右，也就是说不同的输入的差异信息在每层的激励的均值上是无法反馈的(由方差放映);方差随着层数的增加而减小，说明输入信息随着层数的增加而“消散”，也就是说，网络的深度的加大不仅仅是后向的误差信息会消散，前向的输入信息也会消散;

为什么会出现这种情况？

续。。。

0 0