欢迎使用CSDN-markdown编辑器

来源:互联网 发布:淘宝店铺招牌怎么设置 编辑:程序博客网 时间:2024/05/15 16:11

Conditional Image Genearation with PixelCNN Decoders

论文来自google deepmind。主要思想可以归纳为:使用Pixel CNN产生一个新的image density model, 并且given该density model来做image generation。比较吸引人的是,可以given一个其他网络生成的特征vector或者标签信息来完成,比如given一个ImageNet的label,这个image density model可以生成该label对应的人物,场景,动物,given一个人脸,可以生成该人物的不同表情,甚至是不同动作。
本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:

What is Pixel CNN

pixel cnn工公式定义如下:

p(x)=Πn2ip(xi|x1,...xi1)

用论文中的一副图来解释Pixel CNN
Pixcel CNN 图解

图1可以看出,在CNN的感受野范围内,每个pixel都depends on该pixel的左上方所有的pixels。在Pixel RNN中,每个pixel 同样depends on 该pixel左上方的所有pixels,不过这些左上方的pixels是使用一个Grid LSTM来进行编码。

Grid LSTM编码的效果比Pixel CNN的效果好,但是Pixel CNN可以利用卷积并行计算,效率比 Grid LSTM高太多,工程上Grid LSTM效率是个大问题,并且在此论文中,提出了 gated Pixel CNN,效果能与Grid LSTM相当。

Pixel CNN并行计算时需要给每个感受野加一个mask 矩阵,如图2所示。这个mask矩阵保证了每个感受野中的所有pixel在卷积过程中不会看到该pixel右下方的pixel。

What is Gated Pixel CNN

简单粗暴点的说,Gated Pixel CNN就是在Pixel CNN的ReLU用一个tanh和sigmoid的激活函数代替,用公式表示为:

y=tanh(Wk,fx)σ(Wk,gx)


0 0