论文阅读理解
来源:互联网 发布:办公室 植物 知乎 编辑:程序博客网 时间:2024/06/01 07:20
ResNeXt - Aggregated Residual Transformations for Deep Neural Networks
[Paper]
[Code-Torch]
[Code-PyTorch]
[Code-Keras]
[Code-Caffe]
[Code-Tensorflow]
摘要:
高度模块化的网络结构,用于图像分类;
通过重复 build block 来构建网络,每个 build block 聚合了具有相同拓扑结构的变换集;
ResNeXt中,同类、multi-branch 结构的设计具有更少的参数. 引入了新的维度,即 Cardinality(涉及的变换集的尺寸),作为网络 depth 和 width 维度之外的一种必要因子.
特点:
- 基于 ImageNet-1K 数据集,实验结果表明,在严格保证计算复杂度时,增加 Cardinality 能够提高图像分类精度;且,增加 Cardinality 比加深或者加宽网络结构更有效.
- 与 ResNet 相比,相同的精度, ResNeXt 计算量更少,参数更少. ResNeXt-50 接近 ResNet-101 的准确度.
- ResNeXt 网络模块化设计更合理,结构更简单,超参数量更少.
VGG-nets/ResNets: 堆叠相同形状的网络 building blocks;—— 网络 depth
Inceptions:split-transform-merge,将输入采用(
ResNeXt:采用 VGGs/ResNets 的网络的 depth 加深方式,同时利用 split-transform-merge 策略.
1. Simple Neurons 回顾
ANN 中最简单的 neurons 是 inner product(内积),其也可以看做是 aggregating transformation(聚合变换):
其中,
Inner product 可以看作是 splitting-transforming-aggregating 的组合:(1) Splitting:输入向量
2. Aggregated Transformations 聚合变换
根据上面的分析,可以将逐元素变换
aggregated transformations 表示为:
其中,
Cardinality 的维度决定了更复杂变换的数目.
对于变换函数的设计,采用策略是:所有的
基于 residual 函数的 aggregated transformation:
2.1 ResNet-50 && ResNeXt-50
Figure 1. Left - ResNet 的一个 block;Right - ResNeXt 的一个块,Cardinality=32. 二者复杂度相同.(#in_channels, #filter_size,#out_channels).
- 如果 spatial maps 是相同尺寸,blocks 共享相同的参数(width 和 filter sizes)
- 每次当 spatial map 基于因子 2 进行下采样时,blocks 的 width 乘上因子 2.
ResNeXt 保留 ResNet 的堆叠 block,而是对单个 building block 改进.
2.2 ResNeXt && Inception-ResNet && Grouped Convolutions
Figure 3. ResNeXt building blocks 的等价形式. (a) Figure 1 Right 的 Aggregated transformations;(b) 采用提前进行加法操作的等价形式;(c) 采用 grouped conv 的等价形式.
Grouped Convolutions:group conv 层中,输入和输出的 channels 被分为
ResNeXt 只能在 block 的 depth>3时使用. 如果 block 的 depth=2,则会得到宽而密集的模块.
2.3 参数
Figure 1 Left 中的 ResNet block参数:
Figure 1 Right 中 ResNeXt block 参数:
3. Results
4. 基于 ResNeXt 的 Faster R-CNN 实现
采用 Faster R-CNN框架;
不共享 RPN 和 Fast R-CNN 的特征;
- RPN 阶段,在 8-GPUs 上训练,每个 GPU min-batch为 2 张图片,每张图片 256 个 anchors;
- RPN 训练阶段,前 120k mini-batches 的学习率为 learning_rate=0.02,后面 60K mini-batches 学习率为 learning_rate=0.002;
- Fast R-CNN 阶段,在 8-GPUs 上训练,每个 GPU 1张图片,每个 mini-batch 64 个regions;
- Fast R-CNN 训练阶段,前120k mini-batches 的学习率为 learning_rate=0.005,后面 60K mini-batches 学习率为 learning_rate=0.0005;
- weight_decay=0.0001,momentum=0.9.
其它实现类似于 Faster R-CNN.
4.1 COCO 目标检测
5 Reference
[1] - ResNeXt算法详解
[2] - ResNext与Xception——对模型的新思考
- 论文阅读理解
- 论文阅读理解
- 论文阅读理解
- 论文阅读理解
- 论文阅读理解
- 论文阅读理解
- 论文阅读理解
- 论文阅读理解
- 论文阅读理解
- 论文阅读理解
- 论文阅读理解
- 论文阅读理解
- 论文阅读理解
- 论文阅读理解
- 论文阅读理解
- 论文阅读理解
- 论文阅读理解
- 论文阅读理解
- SQL DISTINCT(去重)
- AsTensorError: ('Cannot convert Tensor("mul:0", shape=(19, 19, 5, 80), dtype=float32) to TensorType'
- SSM处理前端ajax发送json数组对象转List
- 使用谷歌提供的解析插件gsonformat安装到Android studio方法
- 关于ecshop的一个巨坑记录一下
- 论文阅读理解
- ssm大型分布式集群项目工程改造soa
- 使用Swagger生成开发文档和前端交互
- 设计模式学习(五)
- 11月23日到12月20日记录
- RabbitMQ详解(二) 工作队列
- LTE:下行峰值速率计算
- 最新小白设置sublime默认浏览器以及快捷键
- jmeter中类似lr的场景设置