论文:pix2pix

来源:互联网 发布:英国贵族知乎 编辑:程序博客网 时间:2024/05/16 09:35

使用条件对抗网络进行 image-to-image的转换
最小化predicted和groundtruth的欧几里得距离(实际距离)会使结果模糊
我们需要一个loss 学习到high-level goal,like”make the output indistingguishable from reality”
GAN可以做到这个

条件GAN
这里写图片描述

在条件GAN的基础上再增加一个L1或者L2 distance是有益的,这个称为重构误差,生成器的任务不只是迷惑判决器了,还会使其逼近ground truth,使用 L1 或者L2 distance会产生一个大概的轮廓,获得一些结构信息,minimize the mean pixel-wise error ,results in a blurry averaged image,但不会获得high-level信息,这需要GAN的adversarial loss 获得了。
这里写图片描述

网络结构
输入和输出虽然不一样,但都是从底层的结构渲染来的,所以生成器的输入和输出结构应该对齐。同时,输入和输出共享了很多的低级信息,使用U-net来传递这些低级的信息。U-net允许low-level 信息shortcut across the network
这里写图片描述

GAN相较cGAN移除了condition,loss不会惩罚input和output的配对信息,只需要output看起来realistic就可以了。所以DISCOGAN并没有需要input和output一一对应。
这两者的表现差别并没有很大。因为L1 loss也会penalizes output 和 groundtruth。

conditional GAN会产生sharp image,即使在input label 上没有。他会鼓励达到true color distribution。而L1 loss 倾向于选择可能颜色分布的中间值。
这里写图片描述

confirming the hypothesis that L1 encourages
average, grayish colors. Using a cGAN, on the other hand,
pushes the output distribution closer to the ground truth.