欢迎使用CSDN-markdown编辑器

来源：互联网发布：淘宝店铺招牌怎么设置编辑：程序博客网时间：2024/05/15 16:11

Conditional Image Genearation with PixelCNN Decoders

论文来自google deepmind。主要思想可以归纳为：使用Pixel CNN产生一个新的image density model，并且given该density model来做image generation。比较吸引人的是，可以given一个其他网络生成的特征vector或者标签信息来完成，比如given一个ImageNet的label，这个image density model可以生成该label对应的人物，场景，动物，given一个人脸，可以生成该人物的不同表情，甚至是不同动作。
本Markdown编辑器使用StackEdit修改而来，用它写博客，将会带来全新的体验哦：

What is Pixel CNN

pixel cnn工公式定义如下：

p (x) = Π n 2 i p (x i | x 1, . . . x i - 1)

用论文中的一副图来解释Pixel CNN
Pixcel CNN 图解

从图1可以看出，在CNN的感受野范围内，每个pixel都depends on该pixel的左上方所有的pixels。在Pixel RNN中，每个pixel 同样depends on 该pixel左上方的所有pixels，不过这些左上方的pixels是使用一个Grid LSTM来进行编码。

Grid LSTM编码的效果比Pixel CNN的效果好，但是Pixel CNN可以利用卷积并行计算，效率比 Grid LSTM高太多，工程上Grid LSTM效率是个大问题，并且在此论文中，提出了 gated Pixel CNN，效果能与Grid LSTM相当。

Pixel CNN并行计算时需要给每个感受野加一个mask 矩阵，如图2所示。这个mask矩阵保证了每个感受野中的所有pixel在卷积过程中不会看到该pixel右下方的pixel。

What is Gated Pixel CNN

简单粗暴点的说，Gated Pixel CNN就是在Pixel CNN的ReLU用一个tanh和sigmoid的激活函数代替，用公式表示为：

y = t a n h (W k, f * x) ⊙ σ (W k, g * x)

0 0