Real-Time Single Image and Video Super-Resolution Using an Efficient Sub-Pixel Convolutional Neural

来源:互联网 发布:ug零件产品编程教程 编辑:程序博客网 时间:2024/05/18 00:49

Real-Time Single Image and Video Super-Resolution Using an Efficient
Sub-Pixel Convolutional Neural Network

摘要

  近来,基于深层神经网络的几种模型在单像超分辨率的重构精度和计算性能方面取得了巨大的成功。在这些方法中,低分辨率(LR)输入图像在重建之前使用单个滤波器(通常是双三次插值)被放大到高分辨率(HR)空间。这意味着在HR空间中执行超分辨率(SR)操作。我们证明这是次优的,增加了计算复杂度。在本文中,我们提出了第一个能够实现1080p视频实时SR的卷积神经网络(CNN)K2 GPU。为了实现这一点,我们提出了一种新颖的CNN架构,其中在LR空间中提取特征图。另外,我们引入了一个有效的子像素卷积层,该层学习了一个升序滤波器阵列,将最终的LR特征图升级到HR输出。通过这样做,我们有效地更换SR管道中的手工双三次插值滤波器,并为每个特征图进行了专门训练的更复杂的升频滤波器,同时还降低了整个SR操作的计算复杂度。

介绍

  全局SR问题假设LR数据是HR数据的低通滤波(模糊),下采样和噪声版本。 由于在不可逆低通滤波和子采样期间发生的高频信息的丢失,这是一个高度ill-posed的问题。 此外,SR操作实际上是从LRHR空间的一对多映射,其可以具有多个解决方案,其中确定正确的解决方案是不容易的。 基于许多SR技术的一个关键假设是大部分高频数据是冗余的,因此可以从低频分量精确地重构。因此,SR是一个推理问题,因此依赖于图像的统计信息。
  许多方法假定多个图像可看作具有不同视角的相同场景的LR实例,即具有独特的先前仿射变换。这些可以被分类为多图像SR方法,并且通过基于附加信息来限制ill-posed问题并尝试反转下采样过程的方式来利用显式冗余信息。然而,这些方法通常需要计算复杂的图像配准和融合阶段,其准确性直接影响结果的质量。另一个方法是单图像超分辨率(SISR)技术。这些技术寻求学习自然数据中存在的隐性冗余,以从单个LR实例中恢复丢失的HR信息。这通常以图像的局部空间相关性和视频中的附加时间相关性的形式出现。在这种情况下,需要以重建约束的形式的先验信息来限制重构的解空间。

贡献
  

  

         ESPCN的核心概念是亚像素卷积层(sub-pixel convolutional layer)。如上图所示,网络的输入是原始低分辨率图像,通过两个卷积层以后,得到的特征图像大小与输入图像一样,但是特征通道为r^2r是图像的目标放大倍数)。将每个像素的r^2个通道重新排列成一个r x r的区域,对应于高分辨率图像中的一个r x r大小的子块,从而大小为r^2 x H x W的特征图像被重新排列成1 x rH x rW大小的高分辨率图像。这个变换虽然被称作sub-pixel convolution, 但实际上并没有卷积操作。通过使用sub-pixel convolution, 图像从低分辨率到高分辨率放大的过程,插值函数被隐含地包含在前面的卷积层中,可以自动学习到。只在最后一层对图像大小做变换,前面的卷积运算由于在低分辨率图像上进行,因此效率会较高。

方法

 SISR的任务是从相应的原始HR图像下采样后的LR图像中估计出HR图像。下采样操作是确定性和已知的:为了从高分辨率图像中产生低分辨率图像,我们首先使用高斯滤波器对高分辨率图像进行卷积操作,然后以r为单位对图像进行下采样。我们将把r称为升序比例。通常,HRLR都可以具有C色通道,因此它们分别表示为大小为H×W×CrH×rW×C的实数张量。
 网络输出层才进行上采样的框架,与在输入层利用bicubic上采样的SRCNN相比,在训练和测试时都降低了复杂度。测试时,进入卷积的图像比SRCNN方法小r×r个尺度,r为上采样尺度,所以速度快r×r,这是因为大部分时间花销都在输出层之前的卷积上。训练时,可以将输入的训练数据,预处理成shuffling操作前的格式,比如将21×21的单通道图,预处理成9个通道,7×7的图,这样在训练时,就不需要shuffling操作。另外值得一提的是,该文采用tanh替代了relu

参考

https://zhuanlan.zhihu.com/p/25532538?utm_source=tuicool&utm_medium=referral



  
阅读全文
0 0