利用条件GANs的pix2pix进化版：高分辨率图像合成和语义操作 | PaperDaily #23

来源：互联网发布：淘宝店铺关闭激活不了编辑：程序博客网时间：2024/06/13 18:12

本文从三个方面对 pix2pix 方法做了改进，还将他们的方法扩展到交互式语义操作，这对于传统的图像逼真渲染是一个颠覆性的工作。

如果你对本文工作感兴趣，点击底部的阅读原文即可查看原论文。

关于作者：郑琪，华中科技大学硕士生，研究方向为计算机视觉和自然语言处理。

■ 论文 | High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs

■ 链接 | https://www.paperweekly.site/papers/1278

■ 作者 | Aidon

论文导读

现有的用于图像逼真渲染的图形学技术，在构建和编辑虚拟环境时往往非常复杂并且耗时，因为刻画真实的世界要考虑的方面太多。

如果我们可以从数据中学习出一个模型，将图形渲染的问题变成模型学习和推理的问题，那么当我们需要创造新的虚拟环境时，只需要在新的数据上训练我们的模型即可。

之前的一些利用语义标签合成图像的工作存在两个主要问题：1. 难以用 GANs 生成高分辨率图像（比如 pix2pix 方法）；2. 相比于真实图像，生成的图像往往缺少一些细节和逼真的纹理。

本文从三个方面对 pix2pix 方法做了改进：一个 coarse-to-fine 生成器，一个 multi-scale 判别器和一个鲁棒的 loss，从而成功合成出 2048 x 1024 的逼真图像。此外，本文还将他们的方法扩展到交互式语义操作，这对于传统的图像逼真渲染是一个颠覆性的工作。

我有几张阿里云幸运券分享给你，用券购买或者升级阿里云相应产品会有特惠惊喜哦！把想要买的产品的幸运券都领走吧！快下手，马上就要抢光了。

模型介绍

1. The pix2pix Baseline

给定语义标签图和对应的真实照片集 (si,xi)，该模型中的生成器用于从语义标签图生成出真实图像，而判别器用于区分真实图像和生成的图像，该条件GANs对应的优化问题如下：

b0d544d5924625cb7870f431bcc67372f6d7934e

其中：

pix2pix 采用 U-Net 作为生成器，在 Cityscapes 数据集上生成的图像分辨率最高只有 256 x 256。

2. Coarse-to-fine 生成器

这里一个基本的想法是将生成器拆分成两个子网络 G={G1,G2}：全局生成器网络 G1 和局部增强网络 G2，前者输入和输出的分辨率保持一致（如 1024 x 512），后者输出尺寸（2048 x 1024）是输入尺寸（1024 x 512）的 4 倍（长宽各两倍）。

以此类推，如果想要得到更高分辨率的图像，只需要增加更多的局部增强网络即可（如 G={G1,G2,G3}），具体的网络结构如图所示：

6ad4229b9330b31e8c340f31bae7da50fd26cdf9

其中 G1 由卷积前端 ?tp=webp&wxfrom=5&wx_lazy=1 ，一系列残差块和一个转置卷积后端组成，G2 也由卷积前端，一系列残差块和一个转置卷积（有时也叫反卷积）后端组成。从图中可以看到，的输入是由的输出和最后一层的 feature map 相加得到，这样就使得全局信息可以传递到G2。

原文链接

阅读全文

0 0