[深度学习论文笔记][ICCV 17 oral]Binarized Convolutional Landmark Localizers for Human Pose Estimation and...

来源:互联网 发布:javlibrary新域名 12 编辑:程序博客网 时间:2024/06/01 07:45

[ICCV 17 oral] Binarized Convolutional Landmark Localizers for Human Pose Estimation and Face Alignment with Limited Resources

Adrian Bulat, Georgios Tzimiropoulos

from The University of Nottingham

paper link, project page

这篇文章是对特征点定位网络(pose estimation & facial landmark detection)进行加速和压缩的工作。文章以Hour-Glass[1]模型为出发点,利用二值化网络[2,3]的转化方式修改模型结构。另外根据二值化网络中出现的特有现象改进网络中residual block的结构。

Method

作者对模型的二值化不包括输入层和输出层,只包括网络中间的各个residual block。修改的起始点,即全精度的residual block结构来自于Resnet[4],其中BN和激活函数放在了卷积层之前,其结构如下图所示:

Binarized HG

作者将其直接二值化后很自然地得到了性能下降了的模型(在姿态检测任务下、MPII数据库上使用PCKh为度量的测试结果,下同):

这里写图片描述

On the Width of Residual Blocks

为了提高二值化后的模型性能,作者将block中的宽度变宽。这样能够提高模型性能,但是代价是大量新增的参数。

On Multi-Scale Filtering

作者将bottle neck中的单支路拆分,设计了多支路的结构,提高特征表达能力。

On 1x1 Convolutions

在二值化网络中,1x1的卷积可能会带来很大的问题,因为此时权重可能的取值只有1或-1。此时1x1卷积变成了特征选通器,一方面学习能力受限从而很难对模型性能有提升,另一方面很可能学习不好而过滤掉了有用的特征。作者仅仅将1x1卷积去掉后,模型性能有所提升。

On Hierarchical, Parallel & MultiScale

在梯度弥散的问题上,二值网络比全精度网络表现得更加突出。为了缓解这个问题,作者重新布置了模块的多尺度卷积结构,使用了和densely connected network中非常相似的结构:

Performances

各个修改步骤对以HG模型为基础的网络所带来的性能变化和参数量变化如下图所示:

Seepdup and Compression Rate

在速度方面,改进后的模型在GPU上加速了3.5倍,模型大小压缩了39倍。

Ablation Study

作者在很多细节模块上做了充分的对比研究。

二值化模块与度bottle neck模块对比。
作者通过增加bottle neck模块通道数目增加参数量,与改进模块达到相近的参数水平。在此之上分别在全精度和二值的情况下对比二者性能(上:二值化情况;下:全精度情况):

数据拓展。在进行了随机旋转、镜面翻转和随机放缩的数据拓展后,模型性能能够提升近4个百分点。

池化方法。使用Max pooling比使用Ave pooling性能提高4个百分点。

使用ReLu。在每层卷积(二值化)后使用ReLu可以提高1个百分点的性能。

Comparisons

Pose estimation.
作者在MPII数据库上以PCK-h为度量测试模型性能。其中[22]为HG文章中报告的性能。此后每列依次为二值化网络的性能、改进结构后全精度网络的性能、全精度网络叠加8次后的性能。

Face alignment.
作者在一系列库上进行了对比试验。其中在AFLW数据库上使用Normalized Mean Error(NME)为度量的结果如下所示:

Reference

[1] A. Newell, K. Yang, and J. Deng. Stacked hourglass networks for human pose estimation. In ECCV, 2016.

[2] M. Courbariaux, I. Hubara, D. Soudry, R. El-Yaniv, and Y. Bengio. Binarized neural networks: Training deep neural networks with weights and activations constrained to+ 1 or-1. arXiv, 2016.

[3] M. Rastegari, V. Ordonez, J. Redmon, and A. Farhadi. Xnornet: Imagenet classification using binary convolutional neural networks. In ECCV, 2016.

[4] K. He, X. Zhang, S. Ren, and J. Sun. Identity mappings in deep residual networks. In ECCV, 2016.

阅读全文
0 0