生成对抗网络入门详解及TensorFlow源码实现--深度学习笔记

来源:互联网 发布:java游戏开发主程 编辑:程序博客网 时间:2024/05/29 04:45

生成对抗网络入门详解及TensorFlow源码实现–深度学习笔记

一、生成对抗网络(GANs)

生成对抗网络是一种生成模型(Generative Model),其背后最基本的思想就是从训练库里获取很多的训练样本(Training Examples),从而学习这些训练案例生成的概率分布。
GAN[Goodfellow Ian,GAN]启发自博弈论中的二人零和博弈(two-player game),由[Goodfellow et al, NIPS 2014]开创性地提出。在二人零和博弈中,两位博弈方的利益之和为零或一个常数,即一方有所得,另一方必有所失。GAN模型中的两位博弈方分别由生成式模型(generative model)和判别式模型(discriminative model)充当。生成模型G捕捉样本数据的分布,判别模型是一个二分类器,估计一个样本来自于训练数据(而非生成数据)的概率。G和D一般都是非线性映射函数,例如多层感知机、卷积神经网络等。

二、生成对抗网络的原理

1、生成对抗过程

GANs的方法,就是让两个网络相互竞争“玩一个游戏”。
其中一个叫做生成器网络( Generator Network),它不断捕捉训练库里真实图片的概率分布,将输入的随机噪声(Random Noise)转变成新的样本(也就是假数据)。
另一个叫做判别器网络(Discriminator Network),它可以同时观察真实和假造的数据,判断这个数据到底是不是真的。
所以整个训练过程包含两步,(在下图里,判别器用 D 表示,生成器用 G 表示,真实数据库样本用 X 表示,噪声用 Z 表示)。
这里写图片描述

第一步,只有判别器D参与。
我们把X样本输入可微函数D里运行,D输出0-1之间的某个值,数值越大意味着X样本是真实的可能性越大。在这个过程中,判别器D尽可能使输出的值靠近1,因为这一阶段的X样本就是真实的图片。
第二步,判别器D和生成器G都参与。
我们首先将噪声数据Z喂给生成器G,G从原有真实图像库里学习概率分布,从而产生假的图像样本。然后,我们把假的数据交给判别器D。这一次,D将尽可能输入数值0,这代表着输入数据Z是假的。
所以这个过程中,判别器D相当于一个监督情况下的二分类器,数据要么归为1,要么归为0。
与传统神经网络训练不一样的且有趣的地方,就是我们训练生成器的方法不同。生成器一心想要“骗过”判别器。使用博弈理论分析技术,我们可以证明这里面存在一种均衡。

2、数学原理

在训练过程中,生成网络G的目标就是尽量生成真实的图片去欺骗判别网络D。而D的目标就是尽量把G生成的图片和真实的图片分别开来。这样,G和D构成了一个动态的“博弈过程”。
最后博弈的结果是什么?在最理想的状态下,G可以生成足以“以假乱真”的图片G(z)。对于D来说,它难以判定G生成的图片究竟是不是真实的,因此D(G(z)) = 0.5。
这样我们的目的就达成了:我们得到了一个生成式的模型G,它可以用来生成图片。
以上只是大致说了一下GAN的核心原理,如何用数学语言描述呢?这里直接摘录论文里的公式:
这里写图片描述
简单分析一下这个公式:
• 整个式子由两项构成。x表示真实图片,z表示输入G网络的噪声,而G(z)表示G网络生成的图片。
• D(x)表示D网络判断真实图片是否真实的概率(因为x就是真实的,所以对于D来说,这个值越接近1越好)。而D(G(z))是D网络判断G生成的图片的是否真实的概率。
• G的目的:上面提到过,D(G(z))是D网络判断G生成的图片是否真实的概率,G应该希望自己生成的图片“越接近真实越好”。也就是说,G希望D(G(z))尽可能得大,这时V(D, G)会变小。因此我们看到式子的最前面的记号是min_G。
• D的目的:D的能力越强,D(x)应该越大,D(G(x))应该越小。这时V(D,G)会变大。因此式子对于D来说是求最大(max_D)

三、GAN的优势与缺陷

1、优势

• 根据实际的结果,它们看上去可以比其它模型产生了更好的样本(图像更锐利、清晰)。
• 生成对抗式网络框架能训练任何一种生成器网络(理论上-实践中,用 REINFORCE 来训练带有离散输出的生成网络非常困难)。大部分其他的框架需要该生成器网络有一些特定的函数形式,比如输出层是高斯的。重要的是所有其他的框架需要生成器网络遍布非零质量(non-zero mass)。生成对抗式网络能学习可以仅在与数据接近的细流形(thin manifold)上生成点。
• 不需要设计遵循任何种类的因式分解的模型,任何生成器网络和任何鉴别器都会有用。
• 无需利用马尔科夫链反复采样,无需在学习过程中进行推断(Inference),回避了近似计算棘手的概率的难题。

2、存在的主要问题:

• 解决不收敛(non-convergence)的问题。
目前面临的基本问题是:所有的理论都认为 GAN 应该在纳什均衡(Nash equilibrium)上有卓越的表现,但梯度下降只有在凸函数的情况下才能保证实现纳什均衡。当博弈双方都由神经网络表示时,在没有实际达到均衡的情况下,让它们永远保持对自己策略的调整是可能的【OpenAI Ian Goodfellow的Quora】。
• 难以训练:崩溃问题(collapse problem)
GAN模型被定义为极小极大问题,没有损失函数,在训练过程中很难区分是否正在取得进展。GAN的学习过程可能发生崩溃问题(collapse problem),生成器开始退化,总是生成同样的样本点,无法继续学习。当生成模型崩溃时,判别模型也会对相似的样本点指向相似的方向,训练无法继续。
• 无需预先建模,模型过于自由不可控。
与其他生成式模型相比,GAN这种竞争的方式不再要求一个假设的数据分布,即不需要formulate p(x),而是使用一种分布直接进行采样sampling,从而真正达到理论上可以完全逼近真实数据,这也是GAN最大的优势。然而,这种不需要预先建模的方法缺点是太过自由了,对于较大的图片,较多的 pixel的情形,基于简单 GAN 的方式就不太可控了。在GAN[Goodfellow Ian, Pouget-Abadie J] 中,每次学习参数的更新过程,被设为D更新k回,G才更新1回,也是出于类似的考虑。

四、DCGANs:深度卷积生成对抗网络

这里写图片描述
DCGANs的基本架构就是使用几层“反卷积”(Deconvolution)网络。“反卷积”类似于一种反向卷积,这跟用反向传播算法训练监督的卷积神经网络(CNN)是类似的操作。
CNN是将图像的尺寸压缩,变得越来越小,而反卷积是将初始输入的小数据(噪声)变得越来越大(但反卷积并不是CNN的逆向操作,这个下面会有详解)。
如果你要把卷积核移动不止一个位置, 使用的卷积滑动步长更大,那么在反卷积的每一层,你所得到的图像尺寸就会越大。
这个论文里另一个重要思想,就是在大部分网络层中使用了“批量规范化”(batch normalization),这让学习过程的速度更快且更稳定。另一个有趣的思想就是,如何处理生成器里的“池化层”(Pooling Layers),传统CNN使用的池化层,往往取区域平均或最大来压缩表征数据的尺寸。
在反卷积过程中,从代码到最终生成图片,表征数据变得越来越大,我们需要某个东西来逐渐扩大表征的尺寸。但最大值池化(max-pooling)过程并不可逆,所以DCGANs那篇论文里,并没有采用池化的逆向操作,而只是让“反卷积”的滑动步长设定为2或更大值,这一方法确实会让表征尺寸按我们的需求增大。
DCGANs非常擅长生成特定Domain里的小图片,这里是一些生成的“卧室”图片样本。这些图片分辨率不是很高,但是你可以看到里面包含了门、窗户、棉被、枕头、床头板、灯具等卧室常见物品。
这里写图片描述

五、生成对抗网络应用

1、GANs的应用:“文本转图像”(Text to Image)

我们可以用GANs做很多应用,其中一种就是“文本转图像”(Text to Image)。在Scott Reed等人的一篇论文里(Generative Adversarial Text to Image Synthesis,链接 https://arxiv.org/abs/1605.05396),GANs根据输入的信息产生了相关图像,。
也就是说,生成器里输入的不仅是随机噪声,还有一些特定的语句信息。所以判别器不仅要区分样本是否是真实的,还要判定其是否与输入的语句信息相符。
这里是他们的实验结果,左上角的图里有一些鸟,鸟的胸脯和鸟冠是是粉色,主羽和次羽是黑色,与所给语句描述的信息相符。
这里写图片描述
但是我们也看到,仍然存在“模型崩溃”问题,在右下角的黄白花里,确实产生了白色花瓣和黄色花蕊的花朵,但它们多少看起来是在同一个方向上映射出来的同一朵花,它们的花瓣数和尺寸几乎相同。
所以,模型在输出的多样性方面还有些问题,这需要解决。但可喜的地方在于,输入的语句信息都比较好的映射到产生的图像样本中。

2、有趣的GANs 图像生成应用

在Indico和Facebook发布了他们自己的DCGAN代码之后,很多人开发出他们自己的、有趣的GANs应用。有的生成新的花朵图像,还有新动漫角色。我个人最喜欢的,是一个能生成新品种精灵宝可梦的应用。
这里写图片描述
在一个 Youtube 视频,你会看到学习过程:生成器被迫去学习怎么骗过判别器,图像逐渐变得更真实。有些生成的宝可梦,虽然它们是全新的品种,看上去就像真的一样。这些图像的真实感并没有一些专业学术论文里面的那么强,但对于现在的生成模型来说,不经过任何额外处理就能得到这样的结果,已经非常不错了。

3、超分辨率

一篇最近发表的论文,描述怎么利用GANs进行超分辨率重建(Super-Resolution)。我不确定这能否在本视频中体现出来,因为视频清晰度的限制。基本思想是,你可以在有条件的GANs里,输入低分辨率图像,然后输出高分版本。使用生成模型的原因在于,这是一个约束不足(underconstrained)的问题:对于任何一个低分辨率图像,有无数种可能的高分辨率版本。相比其他生成模型,GANs特别适用超分辨率应用。因为GANs的专长就是创建极有真实感的样本。它们并不特别擅长做概率函数密度的估测,但在超分辨率应用中,我们最终关心的是输出高分图像,而不是概率分布。
这里写图片描述
(从左到右分别为:图1、2、3、4)
上面展示的四幅图像中,最左边的是原始高分图像(图1),剩下的其余三张图片都是通过对图片的降采样(Down Sample)生成的。我们把降采样得到的图片用不同的方法进行放大,以期得到跟原始图像同样的品质。
这些方法有很多种,比如我们用双三次插值(Bicubic Interpolation)方式,生成的图像(图2)看起来很模糊,且对比度很低。另一个深度学习方法SRResNet(图3)的效果更好,图片已经干净了很多。但若采用GANs重建的图片(图4),有着比其它两种方式更低的信噪比。虽然我们直观上觉得图3看起来更清晰,事实上它的信噪比更高一些。GANs在量化矩阵(Quantitative Matrix)和人眼清晰度感知两方面,都有很好的表现。

六、TensorFlow源码(生成手写字体)

import tensorflow as tffrom tensorflow.examples.tutorials.mnist import input_dataimport numpy as npfrom skimage.io import imsaveimport osimport shutilimg_height = 28img_width = 28img_size = img_height * img_widthto_train = Trueto_restore = Falseoutput_path = "output"# 总迭代次数500max_epoch = 500h1_size = 150h2_size = 300z_size = 100batch_size = 256# generate (model 1)def build_generator(z_prior):    w1 = tf.Variable(tf.truncated_normal([z_size, h1_size], stddev=0.1), name="g_w1", dtype=tf.float32)    b1 = tf.Variable(tf.zeros([h1_size]), name="g_b1", dtype=tf.float32)    h1 = tf.nn.relu(tf.matmul(z_prior, w1) + b1)    w2 = tf.Variable(tf.truncated_normal([h1_size, h2_size], stddev=0.1), name="g_w2", dtype=tf.float32)    b2 = tf.Variable(tf.zeros([h2_size]), name="g_b2", dtype=tf.float32)    h2 = tf.nn.relu(tf.matmul(h1, w2) + b2)    w3 = tf.Variable(tf.truncated_normal([h2_size, img_size], stddev=0.1), name="g_w3", dtype=tf.float32)    b3 = tf.Variable(tf.zeros([img_size]), name="g_b3", dtype=tf.float32)    h3 = tf.matmul(h2, w3) + b3    x_generate = tf.nn.tanh(h3)    g_params = [w1, b1, w2, b2, w3, b3]    return x_generate, g_params# discriminator (model 2)def build_discriminator(x_data, x_generated, keep_prob):    # tf.concat    x_in = tf.concat([x_data, x_generated],0)    w1 = tf.Variable(tf.truncated_normal([img_size, h2_size], stddev=0.1), name="d_w1", dtype=tf.float32)    b1 = tf.Variable(tf.zeros([h2_size]), name="d_b1", dtype=tf.float32)    h1 = tf.nn.dropout(tf.nn.relu(tf.matmul(x_in, w1) + b1), keep_prob)    w2 = tf.Variable(tf.truncated_normal([h2_size, h1_size], stddev=0.1), name="d_w2", dtype=tf.float32)    b2 = tf.Variable(tf.zeros([h1_size]), name="d_b2", dtype=tf.float32)    h2 = tf.nn.dropout(tf.nn.relu(tf.matmul(h1, w2) + b2), keep_prob)    w3 = tf.Variable(tf.truncated_normal([h1_size, 1], stddev=0.1), name="d_w3", dtype=tf.float32)    b3 = tf.Variable(tf.zeros([1]), name="d_b3", dtype=tf.float32)    h3 = tf.matmul(h2, w3) + b3    y_data = tf.nn.sigmoid(tf.slice(h3, [0, 0], [batch_size, -1], name=None))    y_generated = tf.nn.sigmoid(tf.slice(h3, [batch_size, 0], [-1, -1], name=None))    d_params = [w1, b1, w2, b2, w3, b3]    return y_data, y_generated, d_params# def show_result(batch_res, fname, grid_size=(8, 8), grid_pad=5):    batch_res = 0.5 * batch_res.reshape((batch_res.shape[0], img_height, img_width)) + 0.5    img_h, img_w = batch_res.shape[1], batch_res.shape[2]    grid_h = img_h * grid_size[0] + grid_pad * (grid_size[0] - 1)    grid_w = img_w * grid_size[1] + grid_pad * (grid_size[1] - 1)    img_grid = np.zeros((grid_h, grid_w), dtype=np.uint8)    for i, res in enumerate(batch_res):        if i >= grid_size[0] * grid_size[1]:            break        img = (res) * 255        img = img.astype(np.uint8)        row = (i // grid_size[0]) * (img_h + grid_pad)        col = (i % grid_size[1]) * (img_w + grid_pad)        img_grid[row:row + img_h, col:col + img_w] = img    imsave(fname, img_grid)def train():    # load data(mnist手写数据集)    mnist = input_data.read_data_sets('MNIST_data', one_hot=True)    x_data = tf.placeholder(tf.float32, [batch_size, img_size], name="x_data")    z_prior = tf.placeholder(tf.float32, [batch_size, z_size], name="z_prior")    keep_prob = tf.placeholder(tf.float32, name="keep_prob")    global_step = tf.Variable(0, name="global_step", trainable=False)    # 创建生成模型    x_generated, g_params = build_generator(z_prior)    # 创建判别模型    y_data, y_generated, d_params = build_discriminator(x_data, x_generated, keep_prob)    # 损失函数的设置    d_loss = - (tf.log(y_data) + tf.log(1 - y_generated))    g_loss = - tf.log(y_generated)    optimizer = tf.train.AdamOptimizer(0.0001)    # 两个模型的优化函数    d_trainer = optimizer.minimize(d_loss, var_list=d_params)    g_trainer = optimizer.minimize(g_loss, var_list=g_params)    init = tf.initialize_all_variables()    saver = tf.train.Saver()    # 启动默认图    sess = tf.Session()    # 初始化    sess.run(init)    if to_restore:        chkpt_fname = tf.train.latest_checkpoint(output_path)        saver.restore(sess, chkpt_fname)    else:        if os.path.exists(output_path):            shutil.rmtree(output_path)        os.mkdir(output_path)    z_sample_val = np.random.normal(0, 1, size=(batch_size, z_size)).astype(np.float32)    steps = 60000 / batch_size    for i in range(sess.run(global_step), max_epoch):        for j in np.arange(steps):#         for j in range(steps):            print("epoch:%s, iter:%s" % (i, j))            # 每一步迭代,我们都会加载256个训练样本,然后执行一次train_step            x_value, _ = mnist.train.next_batch(batch_size)            x_value = 2 * x_value.astype(np.float32) - 1            z_value = np.random.normal(0, 1, size=(batch_size, z_size)).astype(np.float32)            # 执行生成            sess.run(d_trainer,                     feed_dict={x_data: x_value, z_prior: z_value, keep_prob: np.sum(0.7).astype(np.float32)})            # 执行判别            if j % 1 == 0:                sess.run(g_trainer,                         feed_dict={x_data: x_value, z_prior: z_value, keep_prob: np.sum(0.7).astype(np.float32)})        x_gen_val = sess.run(x_generated, feed_dict={z_prior: z_sample_val})        show_result(x_gen_val, "output/sample{0}.jpg".format(i))        z_random_sample_val = np.random.normal(0, 1, size=(batch_size, z_size)).astype(np.float32)        x_gen_val = sess.run(x_generated, feed_dict={z_prior: z_random_sample_val})        show_result(x_gen_val, "output/random_sample{0}.jpg".format(i))        sess.run(tf.assign(global_step, i + 1))        saver.save(sess, os.path.join(output_path, "model"), global_step=global_step)def test():    z_prior = tf.placeholder(tf.float32, [batch_size, z_size], name="z_prior")    x_generated, _ = build_generator(z_prior)    chkpt_fname = tf.train.latest_checkpoint(output_path)    init = tf.initialize_all_variables()    sess = tf.Session()    saver = tf.train.Saver()    sess.run(init)    saver.restore(sess, chkpt_fname)    z_test_value = np.random.normal(0, 1, size=(batch_size, z_size)).astype(np.float32)    x_gen_val = sess.run(x_generated, feed_dict={z_prior: z_test_value})    show_result(x_gen_val, "output/test_result.jpg")if __name__ == '__main__':    if to_train:        train()    else:        test()

参考文献
http://blog.csdn.net/solomon1558/article/details/52549409
http://www.leiphone.com/news/201612/eAOGpvFl60EgFSwS.html
http://www.itwendao.com/article/detail/403491.html

0 0