神经网络中的权重初始化：Why and How

来源：互联网发布：js接口安全域名作用编辑：程序博客网时间：2024/06/05 23:42

神经网络中的权重（weight）初始化是个常常被忽略的问题。

最近在手写一个Python的神经网络库，刚开始为了测试代码是否写对，搭建了一个2->4->2的单隐层神经网络来拟合异或运算，拟合结果十分完美。

但是在做MNIST手写数字识别，将网络扩展到了784->100->10时，发现损失函数一直不下降，训练准确率一直停留在10%左右（和随机猜的命中概率一样嘛）。

一直以为是back propagation的代码写错了，debug了整整两天都没发现错误，结果输出中间weights的梯度dw看看，发现两个权重矩阵的梯度都是在1e-10左右的数量级。后来查询了一些资料，原来是代码缺少了权重初始化（weight initialization）这及其重要的一步。增加了权重初始化后拟合结果终于正常。

在以前看一些关于神经网络的资料时，我也经常看到“权重初始化”这一步，但一直错误地以为“权重初始化”等价于“权重随机初始化”，以为仅仅将权重初始化为很小的随机数即可，但其实它的原因除了打破梯度更新对称性之外，还有更深层次的原因。

所以接下来文章分为两部分，分别介绍为什么需要进行权重初始化，以及如何进行权重初始化。

权重初始化：Why

在创建了神经网络后，通常需要对权重和偏置进行初始化，大部分的实现都是采取Gaussian distribution来生成随机初始值。假设现在输入层有1000个神经元，隐藏层有1个神经元，输入数据x为一个全为1的1000维向量，采取高斯分布来初始化权重矩阵w，偏置b取0。下面的代码计算隐藏层的输入z：