Multi-style Generative Network for Real-time Transfer论文理解

来源：互联网发布：什么叫五十知天命编辑：程序博客网时间：2024/05/14 17:34

Multi-style Generative Network for Real-time Transfer

创新点

（1）提出了一个Inspiration layer，用于匹配风格图片的特征统计信息（Gram 矩阵）并保留content的内容。

（2）提出了一个新的前向网络，采用了残差网络。主要点在多个尺度上（4个尺度）匹配特征统计信息，与style swap和AdaIN不同，这些方法一般就只在一个尺度上面做特征统计信息匹配。

Inspiration layer

这篇论文中主要用它来匹配图片的风格在多尺度的特征统计信息。主要采用了如下公式对content 得到的feature maps 进行基于目标风格的调整，通过训练整个网络使用梯度下降求解的方式，不断更新矩阵W。得到W矩阵之后在前向网络中使用。

是Content调整后的feature maps，是指输入图片x在第i个尺度的feature maps，是代表reshape操作。

网络结构

此网络结构中主要有两个部分：MSG-Net和损耗网络。

损耗网络和之前一般的一致，是采用了用于图像识别预训练好的vgg网络。

MSG-Net 主要涉及了两个子网络：Descriptive Network 和 Transformation Network。

Descriptive Network是使用一个预训练好的vgg网络，此网络可以表示用于内容的语义信息以及风格信息。图像的语义内容可以直接用层的feature maps经过激励之后的激励值表示，越高层的特征表现越抽象，越能表现差异性，层数越低通常表示的是相对更通用性的信息，纹理、颜色等。图像的风格信息可以直接通过层的feature maps的gram矩阵表示。这里主要用它来得到style image在多个尺度上的feature maps，从而计算feature 的统计信息gram 矩阵。

Transformation Network 由编码和解码部分组成，先将图像从RGB空间转成feature 空间，在每个relu层之后进行style 特征统计信息匹配。具体的网络结构如下图所示。

下采样采用卷积的方式，上采样采用分数步长卷积。采用反射填充避免边缘的假边现象。在卷积层、分数步长卷积、Inspiration层之后都使用Instance normalization和Relu激励。

损耗函数

损耗函数和一般使用的是一致的。具体如下：

感悟

这篇论文这么处理之后，是否可以考虑任意图片的风格迁移，若训练时采用的是很多张style images，是否就支持了style images？

论文

https://arxiv.org/pdf/1703.06953.pdf

代码

https://github.com/zhanghang1989/MSG-Net

参考资料

1.http://computervisionrutgers.github.io/MSG-Net/

0 0