解读Top-Down Modulation for object detection

来源：互联网发布：医疗产业化知乎编辑：程序博客网时间：2024/05/18 03:31

一、概述
卷积神经网络中，卷积层和池化层导致了最终层学习到粗糙的，高度语义化的特征。但是，在识别像瓶子，遥控器小物体时，更需要诸如水平及竖直边缘这样的细节特征。而这些细节特征正是卷积神经网络在位置靠前的卷积层所要学习的。
为了捕捉这些细节特征，各种skip connection方法很流行。但是简单的融合高维度skip feature由于维度灾难导致的过拟合，并不会明显提升网络性能。那么，解决方案就在top-down modulation里。我们用一个自顶向下的神经网络补充经典的自底向上的前馈网络，用侧向连接连接它们。这些连接是用来调制和选择底层特征，而自顶向下的神经网络负责融合特征。经典前馈卷积网络获取的高层语义特征，由自顶向下的网络反馈回来，经过侧向连接处理后，在中间层与原特征融合，进一步向下传递。最终这些特征继承地拥有了局部及更大的感受野。本方法使用InceptionResNet-v2的初步实验得到了36.8的平均准确率，这是不用多尺度迭代改善的单个模型的最佳结果。并且，在小物体识别上获取了极大提升，说明了基于高层语义的细节特征提取很重要。

二、网络解析
2.1 网络结构及单元结构
网络结构设计如图：
这里写图片描述
图1 网络整体结构
核心思想就是在自顶到底的特征基础上从低层特征图获取细节特征，我们通过如图2所示的简单自顶到低调制网络（TDM）解决这个挑战。TDM从原网络的上一层获取输入，同时也从原网络的侧向连接获取输入。这样，TDM就能传递高层语义特征，对学习过程进行导向并指导相关低层特征的选择。最终，网络的输出既捕获了细节特征又获取了高层信息。
TDM由侧向连接L及由顶到底模块T结合，其框架如图2及图3：
这里写图片描述
图2 TDM单元结构
C_i为原网络的一层，侧向连接将原网络输出x_i^c作为输入，输出x_i^L, x_i^L与自顶到底的特征x_j^T结合，产生自顶到底的特征x_i^T。T_i和L_i通过改变输出特征维度改变调制网络的容量。训练时，反向传播通过T及L到原网络的C。侧向连接L学习如何传递低层特征，自顶向下模块T学习在自顶向下的特征传递中应该保留什么样的语义特征，并且起到筛选相关低层特征的作用。在本研究中，L和T用一个非线性卷积层分析自顶到底调制的影响。
举个具体的例子，如图3，看图可以很清晰的理解TDM单元的结构：
这里写图片描述
图3 TDM单元示例
2.2 训练方法
以预训练好的原网络作为开始，我们发现逐步构建自顶到底的网络比一次性构建要好。
用图1举例说明，我们先添加（L_4, T_5,4），并且用T_4^out获取目标检测的特征。训练完（L_4, T_5,4）模块后，再添加（L_3, T_4,3），并且用一个新的T_3^out获取检测特征，以此类推。每添加一对模块，整个网络都是端到端训练的。接下来作者用VGG16及ResNet101举例说明了TDM的使用,细节暂且不表，如果有时间复现该论文再深入研究。在此就简单说一下作者提到的设计准则：a).越粗糙，越多的语义特征需要更大的容量；b).侧向连接和自顶到底的连接应该减少特征维度来促使选择；c).自顶到底模块的输出T_out由RPN（候选区域网络）和RCN（分类网络）网络的设计决定；d).TDM扩展卷积神经网络的硬件限制应该匹配标准的GPU。

三、结果
这是COCO数据集上的结果，看图最直观：
这里写图片描述
值得一提的是，小物体的平均准确率（APs）得到提高，证明了TDM网络获取特征的有效性。

备注：1.先简单写写感兴趣的地方，待对该网络有更深的理解后再作补充。
2.用word写的，粘贴上来，x_i^c意思是i下标，c上标，回头用markdown重新整理。

阅读全文

0 0