Non-local Neural Networks学习

来源:互联网 发布:手机淘宝怎么进咸鱼 编辑:程序博客网 时间:2024/05/29 14:38

拟解决问题

解决视频处理中时空域的长距离依赖打开了新的方向,文章采用图像去噪中常用的**非局部平均**的思想处理局部特征与**全图特征点**的关系。这种非局部操作可以很方便的嵌入已有模型,在视频分类任务中取得的很好的结果,并在在静态图像识别的任务中超过了何恺明本人ICCV最佳论文的Mask R-CNN。***并且超越CNN***,克服CNN网络过于关注局部特征的缺点。文章主要受到NL-Means在图像去噪应用中的启发,在处理序列化的任务是考虑所有的特征点来进行加权计算,克服了CNN网络过于关注局部特征的缺点。图像去噪是非常基础也是非常必要的研究,去噪常常在更高级的图像处理之前进行,是图像处理的基础。图像中的噪声常常用高斯噪声N(μ,σ^2)来近似表示。 一个有效的去除高斯噪声的方式是图像求平均,对N幅相同的图像求平均的结果将使得高斯噪声的方差降低到原来的N分之一,现在效果比较好的去噪算法都是基于这一思想来进行算法设计。

摘要

卷积和循环网络操作都是常用的处理局部领域的基础模块。在本文中,我们提出将非局部操作(non-local operations)作为捕获长距离依赖的通用模块。受计算机视觉中的经典非局部均值方法的启发,我们的非局部运算将位置处的响应计算为所有位置处的特征的加权和。这个构建模块可以应用到许多计算机视觉体系结构中。在视频分类的任务上,即使没有用任何花里胡哨的技巧,我们的非局部模型也可以在Kinetics和Charades数据集上超过对手的效果。在静态图像识别中,我们的非局部模型在COCO比赛中的三个任务,对象检测/分割和姿态估计中都效果都有提升。代码将随后提供。

引言

在深层神经网络中,捕获长期依赖关系是至关重要的。对于连续的数据(例如演讲中语言),循环操作是时间域上长期依赖问题的主要解决方案。对于图像数据,长距离依赖关系是对大量的卷积操作形成的大的感受野进行建模的。卷积操作或循环操作都是处理空间或者时间上的局部邻域的。这样,只有当这些操作被反复应用的时候,长距离依赖关系才能被捕获,信号才能通过数据不断地传播。重复的局部操作有一些限制:首先,计算效率很低;其次,增加优化难度;最后,这些挑战导致多跳依赖建模,例如,当消息需要在远距离之间来回传递时,是非常困难的。本文中,我们提出将非局部操作作为一个高效的、简单的、通用的组件,并用深度神经网络捕捉长距离依赖关系。我们提出的非局部操作受启发于计算机视觉中经典非局部操作的一般含义。直观地说,非局部操作在一个位置的计算响应是输入特性图中所有位置的特征的加权总和(如图1)。一组位置可以在空间、时间或时空上,暗示我们的操作可以适用于图像、序列和视频问题。

非局部网络优势

在深层神经网络中,捕获长期依赖关系是至关重要的。对于连续的数据(例如演讲中语言),循环操作是时间域上长期依赖问题的主要解决方案。对于图像数据,长距离依赖关系是对大量的卷积操作形成的大的感受野进行建模的。

卷积操作或循环操作都是处理空间或者时间上的局部邻域的。这样,只有当这些操作被反复应用的时候,长距离依赖关系才能被捕获,信号才能通过数据不断地传播。重复的局部操作有一些限制:首先,计算效率很低;其次,增加优化难度;最后,这些挑战导致多跳依赖建模,例如,当消息需要在远距离之间来回传递时,是非常困难的。

本文中,我们提出将非局部操作作为一个高效的、简单的、通用的组件,并用深度神经网络捕捉长距离依赖关系。我们提出的非局部操作受启发于计算机视觉中经典非局部操作的一般含义。直观地说,非局部操作在一个位置的计算响应是输入特性图中所有位置的特征的加权总和(如图1)。一组位置可以在空间、时间或时空上,暗示我们的操作可以适用于图像、序列和视频问题。

总结

我们将展示非局部操作在视频分类应用中的有效性。在视频中,远距离的相互作用发生在空间或时间中的长距离像素之间。一个非局部块是我们的基本单位,可以直接通过前馈方式捕捉这种时空依赖关系。在一些非局部块中,我们的网络结构被称为非局部神经网络,比2D或3D卷积网络(包括其变体)有更准确的视频分类效果。另外,非局部神经网络有比3D卷积网络有更低的计算开销。我们在Kinetics和Charades数据集上进行了详细的研究(分别进行了光流、多尺度测试)。我们的方法在所有数据集上都能获得比最新方法更好的结果。

为了证明非局部操作的通用性,我们进一步在COCO数据集上进行了目标检测/分割和姿势估计的实验。在MaskR-CNNbaseline的基础之上,我们的非局部块仅需要很小的额外计算开销,就可以提升在三个任务中的准确度。在视频和图像中的实验证明,非局部操作可以作为设计深度神经网络的一个通用的部件。

原创粉丝点击