caffe-msra初始化
来源:互联网 发布:班班通教学软件下载 编辑:程序博客网 时间:2024/05/21 06:15
简介:
本文学习来自微软的msra初始化,来自论文《Delving Deep into Rectifiers:
Surpassing Human-Level Performance on ImageNet Classification》
目前在深度神经网络的训练过程中,初始化过程影响着网络最终的训练结果。网络越深收敛更加困难,为了处理这个问题,VGG团队先训练一个8层的网络,再用训练好的模型去初始化更深的网络。但这种方法耗时,也有可能使网络陷入局部最优。GoogLeNet则是使用辅助的分类层加速收敛。
Xavier初始化的使用是假设激活函数是线性的,但这种假设则是对Relu和Prelu无效的。
MSRA初始化:
为了使经过每一层后的输出和输入一致,经过卷积层后,根据卷积公式,可以得到卷积前后的分布一致:
进一步的当权重均值为0,由方差计算公式得:
推导:
由于x不是均值为0,所以得:
对于ReLU激活函数,负半轴部分为0,因此经过relu之后方差为:
带入上式得
经过所有层之后的方差分布为:
为了保持输入输出分布一致,则使:
最后结果初始化为均值为0,方差
实验对比
caffe中实现
跟xavier一样,n也有三种计算方法:
enum VarianceNorm { FAN_IN = 0; FAN_OUT = 1; AVERAGE = 2; } optional VarianceNorm variance_norm = 8 [default = FAN_IN];
template <typename Dtype>class MSRAFiller : public Filler<Dtype> { public: explicit MSRAFiller(const FillerParameter& param) : Filler<Dtype>(param) {} virtual void Fill(Blob<Dtype>* blob) { CHECK(blob->count()); int fan_in = blob->count() / blob->num(); int fan_out = blob->count() / blob->channels(); Dtype n = fan_out; // default to fan_in if (this->filler_param_.variance_norm() == FillerParameter_VarianceNorm_AVERAGE) { n = (fan_in + fan_out) / Dtype(2); } else if (this->filler_param_.variance_norm() == FillerParameter_VarianceNorm_FAN_IN) { n = fan_in; } Dtype alpha = this->filler_param_.alpha(); Dtype std = sqrt(Dtype(2) / n / (1 + alpha * alpha)); caffe_rng_gaussian<Dtype>(blob->count(), Dtype(0), std, blob->mutable_cpu_data()); CHECK_EQ(this->filler_param_.sparse(), -1) << "Sparsity not supported by this Filler."; }};
阅读全文
0 0
- caffe-msra初始化
- MSRA初始化
- 对 caffe 中Xavier, msra 权值初始化方式的解释
- 深度学习——MSRA初始化
- 深度学习—网络MSRA初始化方法
- 深度学习——MSRA初始化
- [caffe]深度学习之MSRA图像分类模型Deep Residual Network(深度残差网络)解读
- Caffe--xavier初始化方法
- Caffe中权值初始化方法
- caffe中权值初始化滤波器
- caffe初始化-Xavier
- caffe中权值初始化方法
- MSRA VC
- msra面试
- MSRA 初窥
- Caffe中Layer参数的初始化方式
- Caffe源码阅读(粗读)--网络初始化
- 深度学习caffe:权值初始化
- 第三周——项目一—顺序表的基本运算(2)
- 第二周项目一-C/C++语言中函数参数传递的三种方式
- servlet+jsp+xml写的一个小型的商品展示页面
- Python对csv文件的读写
- LeetCode 78. Subsets
- caffe-msra初始化
- Jupyter Notebook(原IPython Notebook)安装——Udacity学习笔记
- html+css常见布局类型
- 品牌女鞋行业消费者定量研究报告
- Live2D-WebGL——强行给博客加了看板娘
- POJ 3122 Pie <浮点数二分>
- 节点描述符 内存管理区和页描述符的关系
- Modern Java Recipes.mobi Modern Java Recipes.pdf
- MySQL复制