Multi-style Generative Network for Real-time Transfer论文理解

来源:互联网 发布:什么叫五十知天命 编辑:程序博客网 时间:2024/05/14 17:34

Multi-style Generative Network for Real-time Transfer



创新点

     

      (1)提出了一个Inspiration layer,用于匹配风格图片的特征统计信息(Gram 矩阵)并保留content的内容。

     (2)提出了一个新的前向网络,采用了残差网络。主要点在多个尺度上(4个尺度)匹配特征统计信息,与style swap和AdaIN不同,这些方法一般就只在一个尺度上面做特征统计信息匹配。




Inspiration layer


       这篇论文中主要用它来匹配图片的风格在多尺度的特征统计信息。主要采用了如下公式对content 得到的feature maps 进行基于目标风格的调整,通过训练整个网络使用梯度下降求解的方式,不断更新矩阵W。得到W矩阵之后在前向网络中使用。


     是Content调整后的feature maps,是指输入图片x在第i个尺度的feature maps是代表reshape操作。




网络结构




        此网络结构中主要有两个部分:MSG-Net和损耗网络。

       损耗网络和之前一般的一致,是采用了用于图像识别预训练好的vgg网络。

       MSG-Net 主要涉及了两个子网络:Descriptive Network 和 Transformation Network。

       Descriptive Network是使用一个预训练好的vgg网络,此网络可以表示用于内容的语义信息以及风格信息。图像的语义内容可以直接用层的feature maps经过激励之后的激励值表示,越高层的特征表现越抽象,越能表现差异性,层数越低通常表示的是相对更通用性的信息,纹理、颜色等。图像的风格信息可以直接通过层的feature maps的gram矩阵表示。这里主要用它来得到style image在多个尺度上的feature maps,从而计算feature 的统计信息gram 矩阵。


       Transformation Network 由编码和解码部分组成,先将图像从RGB空间转成feature 空间,在每个relu层之后进行style 特征统计信息匹配。具体的网络结构如下图所示。


       下采样采用卷积的方式,上采样采用分数步长卷积。采用反射填充避免边缘的假边现象。在卷积层、分数步长卷积、Inspiration层之后都使用Instance normalization和Relu激励。




损耗函数

      损耗函数和一般使用的是一致的。具体如下:




感悟

     这篇论文这么处理之后,是否可以考虑任意图片的风格迁移,若训练时采用的是很多张style images,是否就支持了style images?



论文

https://arxiv.org/pdf/1703.06953.pdf


代码

https://github.com/zhanghang1989/MSG-Net


参考资料

1.http://computervisionrutgers.github.io/MSG-Net/

0 0