《Deep Learning》学习笔记一: BN的理解。
来源:互联网 发布:电脑软件开发学校 编辑:程序博客网 时间:2024/06/06 01:57
先给出大牛的链接:
知乎:https://www.zhihu.com/question/38102762
BN本质上解决的是反向传播过程中的梯度问题。
详细点说,反向传播时经过该层的梯度是要乘以该层的参数的,即前向有:
那么反向传播时便有:
那么考虑从l层传到k层的情况,有:
上面这个 便是问题所在。因为网络层很深,如果 大多小于1,那么传到这里的时候梯度会变得很小比如 ;而如果 又大多大于1,那么传到这里的时候又会有梯度爆炸问题 比如。BN所做的就是解决这个梯度传播的问题,因为BN作用抹去了w的scale影响。
具体有:
() =()
那么反向求导时便有了:
可以看到此时反向传播乘以的数不再和 的尺度相关,也就是说尽管我们在更新过程中改变了 的值,但是反向传播的梯度却不受影响。更进一步:
即尺度较大的 将获得一个较小的梯度,在同等的学习速率下其获得的更新更少,这样使得整体 的更新更加稳健起来。
作者:Jiangqh
链接:https://www.zhihu.com/question/38102762/answer/164790133
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
Batch Normalization详解
By jiangqh on May.02-2017Batch Normalization广为人知应该是在15年,当时微软亚研院的何恺明提出ResNet在各项视觉比赛中获得冠军并得到了当年的Cvpr best paper。ResNet除了使用跳过式连接还大量使用了Bath Normalization,网络大获成功的同时也证明了BN在深度神经网络训练中的巨大威力。
本文尝试从原理到推导详细的梳理Batch Normalization。下文中为了方便将Batch Normalization简称为BN。
什么是BN?
什么是BN呢?如名字所示,BN所做十分简单,即将某一层输出归一化,使得其均值为0方差为1。值得注意的是BN是在channel维度做的,即将每个channel都进行归一化,如果有n个channel那么便会有n个归一化操作。具体来说如果某个层的输出为
而在卷积神经网络中我们有
怎么做BN
说完了为什么我们来看看具体怎么做。根据定义,我们只需要对每个channel求解其均值和方差,然后进行操作即可。假设某个batch内共有m个数据,那么对某一个channel有:
在上式中前两项为求取均值和方差,第三项分布中
利用链式求导法则我们有:
至此我们完整的梳理了BN的由来和它解决的问题以及详细推导过程,具体实现可以参考caffe或者TensorFlow里相应的代码。值得注意的是在做test的时候为了对一个sample也可以用BN,此时的
同时注意在卷积层做BN时也是按照channel来的,即进行channel个BN操作。
- 《Deep Learning》学习笔记一: BN的理解。
- Deep Learning 学习笔记一
- Deep learning:BN算法
- 对深度学习(Deep Learning)的理解【一】
- deep learning 学习笔记(一):神经网络的发展
- 学习笔记:Deep Learning(一)入门
- deep learning 学习笔记
- Deep Learning 学习笔记
- Deep Learning 学习笔记
- Deep Learning 学习 Toolbox学习记录一 CNN例子的学习理解
- deep learning 的学习过程(一)
- Deep learning学习笔记(1)——对深度学习的理解
- Deep Learning(深度学习) 学习笔记(一)
- Deep Learning(深度学习) 学习笔记(一)
- Deep Learning(深度学习)学习笔记(一)
- Deep Learning(深度学习)学习笔记整理(一)
- Deep Learning(深度学习) 学习笔记(一)
- Deep Learning学习笔记(一):卷积神经网络(CNN)
- 【XML】4种解析器总结(DOM/SAX/JDDOM/DOM4J)
- ccf-2017094-通信网络
- Redis之 散列(hashes)
- 解决jsp用get方式通过a标签传值时的乱码问题
- 717. 1-bit and 2-bit Characters(第九周)
- 《Deep Learning》学习笔记一: BN的理解。
- 区域赛总结
- [LeetCode]566. Reshape the Matrix
- Elastic-Job-Lite 源码阅读 ---- 任务初始化
- Android移动开发-音量调节对话框的实现
- APP测试的认识
- html文件基本结构
- LVM(ext4+xfs的扩容和缩容)
- STM32GPIO口8种模式细致分析(类比51单片机)