Batch Normalization笔记
来源:互联网 发布:linux 修改网络地址 编辑:程序博客网 时间:2024/06/06 13:53
最近研究了下whiteining, Batch Normalization, Data augmentation, dropout, relu这几个知识点。
发现其很多道理是相同的。
1. whiteining:
(2)所有特征具有相同的方差。
http://blog.csdn.net/elaine_bao/article/details/50890491
http://blog.csdn.net/happynear/article/details/44238541
3.Relu
relu会使小于零的神经元直接失活。Relu除了引入非线性变化,更重要的是“失活”的作用,使得大量的神经元并不 参与。
4.Data Augmentation
除了翻转,对比度等变化。还有切割原始图像 大小。切割原有图像来增大数据集有两种方法:第一,比如32*32,直接割成81张24*24的图片。第二种是将原始图片补零成40*40,然后割成81张32*32大小的图片。
从数据增强的角度来理解的话,固然是增加了数据集,所以可以避免过拟合。
但如果从另一个角度来理解,补零成40*40,再切割成32*32,是否表示在训练的时候适当的引入“噪声”,提高整个分类器的抗噪声能力,参考 noise autoencoder。那么如果不对原始图像做处理,直接在图像真正输入模型之前,加一个Dropout,是否也可以达到相同效果,甚至更好的效果。假设图像32*32,那么相当于在32*32个像素点里选81个像素点失活。也就是C(1024,81),包含更多可能性,是否效果会更好。dropout = 0.92
5.Dropout
dropout让神经元随机失活,如果从神经元的角度来看,是神经元失活。但如果从下一层神经元的角度来看,相当于把上一层正常输出的结果中的部分数据随机置零,也就是人为在训练数据中引入噪声。
组合角度:经过交叉验证,隐含节点dropout率等于0.5的时候效果最好,原因是0.5的时候dropout随机生成的网络结构最多。
噪声角度:dropout也可以被用作一种添加噪声的方法,直接对input进行操作。输入层设为更接近1的数。使得输入变化不会太大
dropout与其他standerd regularizers的对比
- L2 weight decay(试过)
- lasso
- KL-sparsity (试过)
- max-norm regularization
- dropout (试过)
- Batch Normalization 学习笔记
- Batch Normalization 学习笔记
- Batch Normalization 学习笔记
- 论文笔记-Batch Normalization
- Batch Normalization 学习笔记
- Batch Normalization 学习笔记
- Batch Normalization 学习笔记
- Batch Normalization 学习笔记
- Batch Normalization 学习笔记
- Batch Normalization 学习笔记
- Batch Normalization笔记
- Batch Normalization 学习笔记
- Batch Normalization 学习笔记
- Batch Normalization 学习笔记
- Batch Normalization 学习笔记
- 论文笔记:Batch Normalization
- Batch Normalization 学习笔记
- Batch Normalization笔记
- leofs-storage(二)
- 你应该知道的Gradle知识
- 189. Rotate Array
- i++和++i
- 数据库索引
- Batch Normalization笔记
- Day 9 linux基础 samba及Nginx服务
- MapReduce实例----单表关联
- 设计模式
- Ubuntu16.04安装x11VNC远程桌面
- 理解ROS话题(六)
- Combination and Permutation
- Linux 内核剖析
- Android性能优化之避免ANR