训练GAN的16个trick

来源：互联网发布：windows小键盘编辑：程序博客网时间：2024/06/07 09:49

本文转载自：https://mp.weixin.qq.com/s/d_W0O7LNqlBuZV87Ou9uqw 新智元公众号本文来自ICCV 2017的Talk：如何训练GAN，FAIR的研究员Soumith Chintala总结了训练GAN的16个技巧，例如输入的规范化，修改损失函数，生成器用Adam优化，使用Sofy和Noisy标签，等等。这是NIPS 2016的Soumith Chintala作的邀请演讲的修改版本，而2016年的这些tricks在github已经有2.4k星。

ICCV 2017 slides：https://github.com/soumith/talks/blob/master/2017-ICCV_Venice/How_To_Train_a_GAN.pdf

NIPS2016：https://github.com/soumith/ganhacks

训练GAN的16个trick

# 1：规范化输入

将输入图像规范化为-1到1之间
生成器最后一层的输出使用tanh函数（或其他bounds normalization）

#2：修改损失函数（经典GAN）

在GAN论文里人们通常用 min (log 1-D) 这个损失函数来优化G，但在实际训练的时候可以用max log D

-因为第一个公式早期有梯度消失的问题

- Goodfellow et. al (2014)

在实践中：训练G时使用反转标签能工作得很好，即：real = fake, fake = real

一些GAN变体

【TensorFlow】https://github.com/hwalsuklee/tensorflow-generative-model-collections

【Pytorch】https://github.com/znxlwm/pytorch-generative-model-collections

#3：使用一个具有球形结构的噪声z

在做插值（interpolation）时，在大圆（great circle）上进行
Tom White的论文“Sampling Generative Networks”

- https://arxiv.org/abs/1609.04468

#4: BatchNorm

一个mini-batch里面必须保证只有Real样本或者Fake样本，不要把它们混起来训练
如果不能用batchnorm，可以用instance norm

#5：避免稀疏梯度：ReLU, MaxPool

GAN的稳定性会因为引入了稀疏梯度受到影响
LeakyReLU很好（对于G和D）
对于下采样，使用：Average Pooling，Conv2d + stride
对于上采样，使用：PixelShuffle, ConvTranspose2d + stride

-PixelShuffle 论文：https://arxiv.org/abs/1609.05158

#6：使用Soft和Noisy标签

Label平滑，也就是说，如果有两个目标label：Real=1 和 Fake=0，那么对于每个新样本，如果是real，那么把label替换为0.7~1.2之间的随机值；如果样本是fake，那么把label替换为0.0~0.3之间的随机值。
训练D时，有时候可以使这些label是噪声：偶尔翻转label

- Salimans et. al. 2016