解读Top-Down Modulation for object detection

来源:互联网 发布:医疗产业化 知乎 编辑:程序博客网 时间:2024/05/18 03:31

一、概述
卷积神经网络中,卷积层和池化层导致了最终层学习到粗糙的,高度语义化的特征。但是,在识别像瓶子,遥控器小物体时,更需要诸如水平及竖直边缘这样的细节特征。而这些细节特征正是卷积神经网络在位置靠前的卷积层所要学习的。
为了捕捉这些细节特征,各种skip connection方法很流行。但是简单的融合高维度skip feature由于维度灾难导致的过拟合,并不会明显提升网络性能。那么,解决方案就在top-down modulation里。我们用一个自顶向下的神经网络补充经典的自底向上的前馈网络,用侧向连接连接它们。这些连接是用来调制和选择底层特征,而自顶向下的神经网络负责融合特征。经典前馈卷积网络获取的高层语义特征,由自顶向下的网络反馈回来,经过侧向连接处理后,在中间层与原特征融合,进一步向下传递。最终这些特征继承地拥有了局部及更大的感受野。本方法使用InceptionResNet-v2的初步实验得到了36.8的平均准确率,这是不用多尺度迭代改善的单个模型的最佳结果。并且,在小物体识别上获取了极大提升,说明了基于高层语义的细节特征提取很重要。


二、网络解析
2.1 网络结构及单元结构
网络结构设计如图:
这里写图片描述
图1 网络整体结构
核心思想就是在自顶到底的特征基础上从低层特征图获取细节特征,我们通过如图2所示的简单自顶到低调制网络(TDM)解决这个挑战。TDM从原网络的上一层获取输入,同时也从原网络的侧向连接获取输入。这样,TDM就能传递高层语义特征,对学习过程进行导向并指导相关低层特征的选择。最终,网络的输出既捕获了细节特征又获取了高层信息。
TDM由侧向连接L及由顶到底模块T结合,其框架如图2及图3:
这里写图片描述
图2 TDM单元结构
C_i为原网络的一层,侧向连接将原网络输出x_i^c作为输入,输出x_i^L, x_i^L与自顶到底的特征x_j^T结合,产生自顶到底的特征x_i^T。T_i和L_i通过改变输出特征维度改变调制网络的容量。训练时,反向传播通过T及L到原网络的C。侧向连接L学习如何传递低层特征,自顶向下模块T学习在自顶向下的特征传递中应该保留什么样的语义特征,并且起到筛选相关低层特征的作用。在本研究中,L和T用一个非线性卷积层分析自顶到底调制的影响。
举个具体的例子,如图3,看图可以很清晰的理解TDM单元的结构:
这里写图片描述
图3 TDM单元示例
2.2 训练方法
以预训练好的原网络作为开始,我们发现逐步构建自顶到底的网络比一次性构建要好。
用图1举例说明,我们先添加(L_4, T_5,4),并且用T_4^out获取目标检测的特征。训练完(L_4, T_5,4)模块后,再添加(L_3, T_4,3),并且用一个新的T_3^out获取检测特征,以此类推。每添加一对模块,整个网络都是端到端训练的。接下来作者用VGG16及ResNet101举例说明了TDM的使用,细节暂且不表,如果有时间复现该论文再深入研究。在此就简单说一下作者提到的设计准则:a).越粗糙,越多的语义特征需要更大的容量;b).侧向连接和自顶到底的连接应该减少特征维度来促使选择;c).自顶到底模块的输出T_out由RPN(候选区域网络)和RCN(分类网络)网络的设计决定;d).TDM扩展卷积神经网络的硬件限制应该匹配标准的GPU。


三、结果
这是COCO数据集上的结果,看图最直观:
这里写图片描述
值得一提的是,小物体的平均准确率(APs)得到提高,证明了TDM网络获取特征的有效性。


备注:1.先简单写写感兴趣的地方,待对该网络有更深的理解后再作补充。
2.用word写的,粘贴上来,x_i^c意思是i下标,c上标,回头用markdown重新整理。

阅读全文
0 0
原创粉丝点击