Deep Alignment Network: A convolutional neural network for robust face alignment

来源:互联网 发布:ubuntu tftp 命令 编辑:程序博客网 时间:2024/04/27 08:41

论文分析

论文提出了一种类似级联的神经网络结构。这一点上很遗憾,我在一个月之前也想到了这种模式。因为对于实时 Landmark 的跟踪,其实可以利用上一帧的预测结果来预测下一帧 Landmark 的位置。但现代大部分的 CNN 结构没办法办到。在与朋友的讨论中可以仿照RNN来建立时间线上的联系,解决在实时跟踪中的效率及时间稳定性。当时想动手设计并实现一个这样的网络,后来因为公司原因并没有动手,想法搁置。结果今天就看到 CVPR2017 上的这篇论文。看来以后有想法还是直接撸吧!


初窥网络架构

我自己原有的想法是,在测试阶段:对于一个输入 I ,给定一个初始形状S0。每一级神经网络输出的是根据输入图像得到的偏移估计 ΔSn1,那么每一级都会更准确的预测脸上 Landmark 的位置:

S~=S0+i=0NLidc(I,Si)

那么我们来看论文,论文作者还是比我想的要复杂的多。哈哈哈,毕竟能在目前达到 stage of art,我那样的构想还是太简单了。
这里写图片描述

每一个 connection layers,连接了本次 STAGE 和 下一个 STAGE,并根据本次 STAGE 的数据生成了三个东西:Landmark HeatMap H,特征 Image F , 和一个变换 T(用来把图像做仿射变换到标准的Pose)。

Deep Alignment Network

DAN思想来源于Cascade Shape Regression框架,于之前我自己实现的3000fps一样。他会给定一个初始估计S0。但与原始框架最大的不同在于,CSR 框架基本都基于一个局部的特征,或者由粗到精的级联。但 DAN 提取的特征都是全部 image 的特征。而作者就是通过提取额外的特征输入解决这个问题–Heatmap。

这里写图片描述

一个连接层由Transform Estimation layer、Image Transform layer、Landmark Transform layer、Heatmap Generation layer、Feature Generation layer 组成。

细化结构

阅读全文
0 0
原创粉丝点击