Image-to-Image Translation with Conditional Adversarial Networks 论文翻译
来源:互联网 发布:淘宝卖家怎么上淘抢购 编辑:程序博客网 时间:2024/06/05 13:51
基于条件对抗网络的图像转换
源论文标题:Image-to-Image Translation with Conditional Adversarial Networks
源论文链接:https://phillipi.github.io/pix2pix/
【摘要】
我们调研了使用条件对抗网络,做为图像到图像转换的通用解决方案。这个网络不仅学习到图像到图像的映射,还学习了一个损失函数来训练这个映射。这使得之前那些需要不同损失函数的问题,采用通用方法来解决成为可能。我们证明了这种方法在用标签图合成照片,用边缘图重建物体,将黑白图像色彩化等任务上是有效的。做为一个通用方案,我们不用手动设计映射函数,不用手动设计损失函数,就能得到一个合理的结果。
计算机图像学和计算机视觉中的很多问题,可以被认为是将输入图像“翻译”成相应的输出图像。正如一个概念可以被使用英语或法语来表达,一个场景也可以被呈现为RGB图像,梯度场,边缘图,语义标签等。与语言的自动翻译类似,我们定义自动图像翻译为,在有足够的训练数据情况下,将场景的一种表示,转换成另一种可能的表示。(如图1所示,原来不同的图像转换问题,需要不同的算法。但这些问题有一个共同点,就是像素到像素的映射。基于条件对抗网络的方案,我们可以使用同样的网络架构来处理这些问题,只是需要不同的训练数据)
语言翻译困难的原因之一是,语言之间的映射很少是一对一的。类似的,图像翻译问题,可能是多对一,比如将图片映射为边缘,片段或语义标签;也可能是一对多,比如将标签,用户的稀疏输入映射为逼真图像。传统上,这些问题都是用单独的“专用设备”来解决,尽管这些“设备”有共同的“配置”:从像素到像素的预测。本文的目标是为这些问题提供一个共同的解决框架。
卷积神经网络是目前图片预测领域最主要的解决方法。虽然CNN的学习过程是自动的,但CNN需要花很大的功夫在设计有效的损失函数上。换句话说,就是我们仍然需要告诉CNN我们想要最小化的东西。就像Midas(希腊神话中的国王,拥有点石成金的能力)一样,我们必须小心我们所希望的。如果我们采用幼稚的方法,要求CNN去最小化预测像素和真实像素之间的欧几里德距离,它往往会产生模糊的结果。这是因为欧式距离通过平均所有可能的输出来达到最小化,这会导致模糊。通过损失函数来迫使CNN输出我们真正想要的东西,比如清晰,逼真的图像,是一个开放的问题,往往需要专业的知识。
如果我们只需要指定一个高层目标,比如“让输出和现实无法区分”,然后自动学习出一个适合于这个目标的损失函数,那将是非常理想的。幸运的是,这正好是最近提出的生成对抗网络(GANs)在做的事情。GAN学到了一个试图区分输出图像是真还是假的“损失”,同时训练生成模型去最小化这个“损失”。由于GAN学习到了与数据相适应的“损失”,因此可以将其应用在传统上需要不同损失函数的各种任务上。
在本文中,我们探索了有条件设置下的生成对抗网络,正如GANs学习了一个生成数据模型,条件GANs(cGANs)学习了一个有条件的生成模型。这意味着,cGANs适用与图像到图像的“翻译”任务。在这种情况下,我们接受输入图像的条件,并生成相应的输出图像。
GANs在过去两年里得到大力研究,本文中我们探索的许多技术已经被提出。尽管如此,早期的论文主要集中在特定的应用领域,如何应用到图像翻译上还是不清楚。我们的主要贡献是证明了在大量的问题上,cGANs会产生合理的结果。我们的第二个贡献是提出了一个足以取得良好结果的简单框架,并分析了选择几个重要架构的影响。
【1、相关工作】
图像模型的结构化损失
图像到图像的转换问题,通常被表述为按像素的分类或回归。这些表述将输出空间视为非结构化的,每个输出像素被认为是有条件的独立于输入图像的所有其它像素。不同的是,cGANs学习了结构化损失。结构化损失会惩罚输出中的“联合组态”。大量的文献已经考虑了这种损失,比如条件随机场,SSIM度量,特征匹配,非参数损失,卷积伪先验和基于匹配协方差统计的损失。我们条件生成对抗网络不同之处在于损失是学习到的,所以理论上可以惩罚任何的导致输出和目标有差异的结构。
有条件的生成对抗网络
我们不是第一个在有条件下应用GAN,之前的工作在离散的标签,文本,图像上也应用了cGANs,图像的条件模型已经解决了图像预测,未来帧预测和风格转移等问题。每一个这些方法都是针对性设计的,我们的不同之处在于没有任何的特定性,这使得我们的步骤简单很多。
我们的方法也不同于以前的生成器和鉴别器的结构。我们的生成器使用“u-net”架构,鉴别器使用卷积的“PatchGAN”分类器,它只会在“图片块”尺度上进行惩罚。为了获得局部的风格统计,以前也提出过类似的Patch-GAN结构。我们在这里表明了这种结构在大量问题上都是有效的,并且我们探讨了选择不同块大小带来的影响。
【2、方法】
GANs的生成模型,学习从随机噪声向量z到输出图像y的映射,G(z)-> y。相反的,条件GANs学习从被观察图像x和随机噪声向量z到y的映射,G(x,z)-> y。生成器G被训练去产生图像,这些图像和真实图像无法被鉴定器D区分出来。鉴定器D则被训练去尽可能区分出是生成器G的“造假”图像。这个训练过程如下图2。
- Image-to-Image Translation with Conditional Adversarial Networks 论文翻译
- 每日论文image-to-Image Translation with Conditional Adversarial Networks
- 《Image-to-Image Translation with Conditional Adversarial Networks》论文笔记
- Image-to-Image Translation with Conditional Adversarial Networks论文学习
- Image-to-Image Translation with Conditional Adversarial Networks
- Image-to-Image Translation with Conditional Adversarial Networks
- Image-to-Image Translation with Conditional Adversarial Networks笔记
- 『论文阅读』Image-to-Image Translation with Conditional Adversarial Networks
- ICCV2017论文“Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks” 阅读笔记
- 《zi2zi: Master Chinese Calligraphy with Conditional Adversarial Networks》论文笔记
- Unsupervised Image-to-Image Translation Networks---VAE+GAN+Cycle
- Conditional Generative Adversarial Nets论文翻译
- Improving Neural Machine Translation with Conditional Sequence Generative Adversarial Nets
- Conditional adversarial networks
- GENERATIVE ADVERSARIAL NETWORKS FOR IMAGE STEGANOGRAPHY
- 论文引介 | NMT with Conditional Sequence Generative Adversarial Nets
- 论文阅读:Learning to Discover Cross-Domain Relations with Generative Adversarial Networks
- CONDITIONAL IMAGE SYNTHESIS WITH AUXILIARY CLASSIFIER GANS
- struct platform_driver 结构体的阅读笔记(3.0.35)
- Harbor开源项目有奖征文活动
- Java创建多级文件夹
- Lua格式化字符串中的空格
- JavaScript 模块的循环加载--阮一峰
- Image-to-Image Translation with Conditional Adversarial Networks 论文翻译
- Matlab安装MinGW-w64编译器
- 网站访问速度测试
- mysql跟踪日志
- Tampermonkey 百度网盘助手 [windows]
- lua 小技巧
- MySql创建视图
- Oracle的Blob类型转String
- go 多线程获取url返回码