论文笔记：Look and Think Twice

来源：互联网发布：python数据分析实战编辑：程序博客网时间：2024/06/11 07:09

Look and Think Twice: Capturing Top-Down Visual Attention with Feedback Convolutional Neural Networks

摘要
在计算机视觉领域反馈型深度卷积神经网络取得了巨大的成功。但是人类的视网膜反馈明显比正馈能包含更多的连接。在本篇文章中引进了背景反馈信息，能够激励我们发展计算反馈机制。此外，在传统神经网络中的前馈中，反馈用来推测隐藏卷积层的激活状态根据网络的目标。我们把这个方法称为look and think twice. 反馈网络能够帮助我们更好的可视化和理解神经网络的工作原理，捕捉到期待物体的注意力信息，即使在背景比较复杂包含多个物体的情况下。该实验在ImageNet数据集上分类和定位任务表现出了良好的有效性。

上面那段话可能比价难懂，主要意思就是，人类在看一张图片的时候，可能第一眼看过去也看不到某些信息，但是根据第一次看到的结果，再仔细看的时候，就能发现一些明显的隐藏信息在第一眼的时候被忽略了，而神经网络也是一样，在传递的过程中也会忽略一些信息，而增加反馈机制，就能提高网络解决实际分类和定位的问题的有效性。

这篇论文，质量应该不错，要好好看看

引言

本文提出一种新颖了反馈卷积神经网络结构。它通过集合类别节点的输出和隐层网络的激活函数实现了这种可选择性。
Feedback Loop 优化
从机器学习的角度来说，提出的这个反馈网络给卷及网络增加了额外的灵活性，从而帮助其获得visual attention以及提高特征检测的能力。我们利用一个简单有效的方法来优化图像成分并且给神经元激活给定的目标在视觉搜索的时候。这个算法能够最大化网络的后响应，这个网络被给予了高层次的语义信息，用一种自顶而下的方式。跟普通卷及网络相比，该方法具有极大的灵活性。
灵活性体现在，这个方法能够把图像中的多个物体识别出来而不是告诉我们这个图片是个连环画。这个反馈网络能够达到一定程度的选择性并且提供在推理过程中的对不相关节点的镇压，允许模型将注意力集中在具备最显著信息的图片区域。
弱监督物体定位
本文不适用大量的监督信息，同时也不需要训练阶段的任何的定位信息。取而代之的是，我们采用了一个联合网络能够同时进行识别和定位，来回答这个“what”和“where”这两个计算机视觉领域最为重要的问题的同步。实验表明，我们的肉监督算法能够达到跟GoogLeNet和VGG在物体定位问题中的结果相抗衡。
图像分类重访问
我们仿照人眼的识别过程来进行分类。我们利用肉监督学习在“第一眼”的时候进行定位，猜测感兴趣区域的范围，然后使网络对这些感兴趣区域进行处理，得到最后的分类list。实验结果表明这个方法能够有效的小区不相关的聚类并且能够提高小物体的分类精确度。

模型

反馈网络的选择性
这就是牛逼之处吗？？？
本文重新解释了ReLUctant和Max-pooling的含义。引入变量z属于{0,1}而不是max（）操作在ReLU和Max-pooling操作中。可以写成方程y = z 点乘 x。
通过重新解释，relu和Max-pooling就像被输入控制的门一样，网络可以在反馈时进行选择，消除那些对最后决策影响比较小的因素。然而这个机制有可能有用，也有可能会对分类产生不好的结果，并且引进了太多的噪声，比如，复杂场景中的聚类信息。
引入反馈层
我们在每层ReLU层后面引入反馈层，反馈层只有0,1 两个值，跟ReLU组成了一个混合控制单元。这个二进制的反馈节点被输出反馈回来的信息所控制，而不是被输入信息控制。
自底向上
ReLU层对固有属性的选择性，能够把有决定性的特征传递到后面。
自顶向下
反馈层控制，将高层语义信息和全局信息传递到图像表达中。只有与这些门相关的目标神经元才会被激活。

更新反馈过程中隐层神经元
我们把这个反馈机制看做一个优化问题，通过引进控制门变量z。给定一张图像I 和一个神经网络，带有学好的参数w .我们通过结合z在因此呢过反馈层上的推断来优化目标神经元输出。特别的，如果目标神经网络在顶层具有k个类别节点,我们通过调整每个神经元的激活函数来优化类别得分。
我们的优化目的是激活最少的神经元以达到最大的目标得分。使用了L1范数在目标方程之后。
这会导致一个内部的程序问题，这个问题是N-P难度的，在目前的深度神经网络结构上。通过应用线性松弛导出一个近似值。
我们使用梯度上升算法来更新隐层变量对所有层。
反馈层的初始化方式跟ReLU相同。
应用细节
我们在每个ReLU层后面都加入了反馈单元。初始化z全部为1，相当于把门全部打开，在第一次前向传递的时候。我们更新高层的反馈网络根据每个节点的梯度正负。设置隐层激活函数学习率为0.1。在10-50个迭代后停止这个过程。

实验结果
分类应用方法
Resizeimagetosize224∗224,runCNNmodeland predict top 5 class labels. • For each of the top 5 class labels, compute object localization box with feedback model. • Crop image patch for each of 5 bounding boxes from original image and resize to 224 ∗ 224. Predict top 5 labels again. • Giventhetotal25labelsandthecorrespondingconﬁdences, rank them and pick the top 5 as ﬁnal solution.

总结

感觉这个方法，具有一定的新颖性，但是可能推广性不是很强。具体如何操作，还未知。

Emma
SIAT
2017.03.02

0 0