[DeeplearningAI笔记]Batch NormalizationBN算法Batch归一化_02_3.4-3.7

来源：互联网发布：java截屏网页编辑：程序博客网时间：2024/06/06 02:36

Batch Normalization

u = 1 m \sum x i (求 出 平 均 值 u) x = x - u σ 2 = 1 m \sum (x i) 2 (求 出 方 差) x = x σ 2

函数曲线会由类似于椭圆变成更圆的东西,更加易于算法优化.

2017-10-29_161415

此时z的每个分量都含有平均值0和方差1,但我们不想让隐藏单元总是含有平均值0和方差1,例如在应用sigmoid函数时,我们不想使其绘制的函数图像如图所示,我们想要变换方差或者是不同的平均值.

IMG_20171029_164731

IMG_20171029_165426

u = 1 m \sum i Z i σ 2 = 1 m \sum i (Z i - u) 2 Z i n o r m = Z i - u σ 2 + ϵ - - - - - \sqrt Z i ˇ = γ Z i n o r m + β

2017-10-29_191836

对于Batch Normalization算法而言,计算出一层的Z[l]之后,进行Batch Normalization操作,次过程将有β[l],γ[l]这两个参数控制.这一步操作会给你一个新的规范化的z[l]值.然后将其输入到激活函数中,得到a[l]

2017-10-29_192550

实质上,BN算法是在每一层的Z[l]和a[l]之间进行的运算

如果神经元的数据分布改变,我们也许需要重新训练数据以拟合新的数据分布.这会带来一种数据的不稳定的效果.(covariate shift)
Batch Normalization做的是它减少了这些隐藏值分布变化的数量.因为随着训练的迭代过程,神经元的值会时常发生变化.batch归一化可以确保,无论其怎样变化,其均值和方差将保持不变.(由每一层的BN函数的参数β[l],γ[l]决定其方差和均值)
Batch Normalization减少了输入值改变的问题,它的确使这些值变的稳定,即是原先的层改变了,也会使后面的层适应改变的程度减小.也可以视为它减少了前层参数和后层参数之间的联系.

Batch Normalization有轻微的正则化作用.
- BN算法是通过mini-batch计算得出,而不是使用整个数据集,所以会引入部分的噪音,即会在纵轴上有些许波动.
- 缩放的过程从Z[l]→Z[l]ˇ也会引入一些噪音.
- 所以和Dropout算法一样,它往每个隐藏层的激活值上增加了噪音,dropout有噪音的模式,它使一个隐藏的单元以一定的概率乘以0,以一定得概率乘以1.BN算法的噪音主要体现在标准偏差的缩放和减去均值带来的额外噪音.这使得后面层的神经单元不会过分依赖任何一个隐藏单元.有轻微的正则化作用.如果你想获得更好的正则化效果,可以在使用Batch-Normalization的同时使用Dropout算法.

2017-10-29_204416

注意对于u和σ是在整个mini-batch上进行计算,但是在测试时,你不会使用一个mini-batch中的所有数据(因为测试时,我们仅仅需要少量数据来验证神经网络训练的正确性即可.)况且如果我们只使用一个数据,那一个样本的均值和方差没有意义,因此我们需要用其他的方式来得到u和σ这两个参数.
运用覆盖所有mini-batch的指数加权平均数来估算u和σ

阅读全文

0 0