A Deep Spatial Contextual Long-term Recurrent Convolutional Network for Saliency Detection

来源:互联网 发布:淘宝发布宝贝添加规格 编辑:程序博客网 时间:2024/06/02 00:33

这篇文章的特点:

  • 利用了global context的信息

  • 利用了scene context的信息

背景:

这里写图片描述

什么是global context?

在我的理解就是,图的整体性的重要性,一张图上出现一个新的物体,显著性会发生明显的变化。论文中有这样解释,如果不考虑global context,在图b中也会对图a中显著性高的地方做出类似的反应,这样ground truth就不是很好。

什么是scene context?

scene context就是图像上场景信息的重要性,比如我们知道图c是马路口会对交通标志更敏感,而图d是森林,出现了一张床,这张床在这个场景下对我们来说更新鲜。

作者的出发点

作者通过对人脑的一些机制进行分析(比如文中提到的cortical lateral inhibition mechanisms皮质侧向抑制机制)以及结合前人的结论联想到利用这些信息,提到的相关论文有,有机会看一下:

F. Crick, and C. Koch, “Towards a neurobiological theory of
consciousness,” Semin. Neurosci., vol. 2, pp. 263-275,
1990. E. Niebur, C. Koch, and C. Rosin, “An oscillation-based model for the neuronal basis of attention,” Vis. Res., vol.33, no. 18, pp.
2789-2802, 1993 A. Torralba, A. Oliva, M. S. Castelhano, and J.
M.Henderson, “Contextual guidance of eye movements and attention in
real-world scenes: the role of global features in object search,”
Psychol. Rev., vol. 113, no. 4, pp. 766, 2006

主要内容:

网络结构:

这里写图片描述

核心都在这张图上了,从图的结构一次说起。

CNN部分:

即特征提取部分,本文采用了两种网络:res-netvgg16, 网络部分做出的调整不是这篇文章的重点,不过多关注,但是值得注意的一个地方是:在去掉pool层后本文使用了dilation convolution,使得尽管输出尺度变了,同样的神经元的感受野仍然不变。
参考论文:空洞卷积
我想这也是符合本文的思路,希望神经元的感受野不至于变小,毕竟global context是重要的。

global context:

怎么并入全局信息,作者提到此前有一些论文用CNN加大神经元感受野的方法提取global context的信息,比如deep fix采用iception 结构去提供不同尺度的感受野,但是由于CNN的一个本身的限制,对于边缘来说,感受野再大也大不到哪去,这样的方式只对中心的一些位置有效。
作者的思路是采用LSTM的方式,将不同位置上的信息关联起来(作者又提到了人脑的一个机制:mimicking the human visual system to introduce lateral interconnections among different spatial locations视觉系统中不同空间位置的互联)
看结构图:有箭头的均代表利用LSTM得到的global context信息,
具体做法如下:

这里写图片描述
这里写图片描述

设从CNN提取到的特征图为F,F的每一行作为一组,每一行的每一个像素作为单个time step的输入,从左往右得到该像素的最后更新状态即是它在从左往右这个方向上并入global context信息之后的值,从图中可以看出,同样进行从右往左,从上往下,从下往上的操作,即并入了global context的信息,从图中可以看出分两层进行,每层的两路信息在通道上合并。

scene context:

怎么并入场景信息, 刚好有一个Places-CNN(实际上就是AlexNet用于场景分类,但是已经训练好了),作者用这个网络提取场景信息显得很直接,作者提取了这个网络的卷积层输出,最后加了一个全连接层得到128维的向量作为scene context信息。
如何并入到上面提取到global context的信息中去,作者借鉴的是下面这篇论文的思路,没看所以不是很了解:

S. Ghosh, O. Vinyals, B. Strope, S. Roy, T. Dean, and L. Heck, “Contextual LSTM (CLSTM) models for Large scale NLP tasks,” arXiv preprint arXiv:1602.06291, 2016

具体做法是将该向量作为输入加到LSTM的最开始(at first timestep),之所以不是每一步都加是因为作者发现效果不好。

这里写图片描述

其他:

  • 可以看到输入到LSTM之前,均做了L2规范化,是由于担心最后卷积层的输出往往较大,会使得LSTM隐层容易饱和、训练困难,所以做了这样的处理。
  • 另外,输入的size做了规定,见结构图。
  • 训练的时候采用NSS作为目标函数。 恢复到原图大小的saliency map是通过双线性插值

实验结果:

这里写图片描述

对比实验:

  • 第一行表示感受野大了带来了正面的影响,反应big context的重要性
  • 第二行一层和两层lstm的影响,两层lstm反应global context的好处
  • 第三行反应scene context的好处,但是作用看起来不大
  • 第四行反应多层信息的好处

    另外的实验就是指标上的对比,见论文。

总结:

  • 本文提出的方法在MIT数据集上第一(NSS指标),效果好
  • 本文利用LSTM并入global context信息,scene context信息,通过实验反映了他们的好处,提供了这样的研究角度。
  • -
阅读全文
0 0
原创粉丝点击