（无监督学习&&视频预测）所读论文[2]:Generating Videos with Scene Dynamics

来源：互联网发布：修改ssh命令默认端口编辑：程序博客网时间：2024/06/05 10:42

2017-8-23

Generating Videos with Scene Dynamics

1.基本信息

发表在NIPS2016;
网址：http://carlvondrick.com/tinyvideo/

2.简介

这篇论文介绍的是利用大量的无标签视频数据训练生成对抗网络GAN从而得到可以生成视频序列的模型。实验表明模型可以更好的以全帧率的速度产生小视频，可以合理的预测静态图像接下来要发生什么，此外的实验和可视化表明模型可以用弱监督学习内部有用的特征来识别动作，表明动态场景对于表征学习有发展前景。实验表明，该模型可以比单纯基线更好地以全帧速率产生一秒钟的小视频，并且我们可以预测静态图像的合理期望。 此外，实验和可视化表明，该模型在内部学习有用的功能，以最小的监督来识别动作，表明场景动力学是表征学习的有希望的信号。

3.网络模型介绍

3.1生成对抗网络基础

GAN是本文的基础，生成对抗网络的基本思想就是训练两个网络：一个生成器网络，一个判别器网络。生成器网络G试图生成一个视频，判别器网络来判断这个视频是真实的视频还是欺骗的生成视频。下图为来自知乎（https://zhuanlan.zhihu.com/p/26499443）的生成图片的GAN：

3.2生成器网络

如图
这里写图片描述

生成器网络的输入是低维的隐编码，可以从一个分布函数采样得到，我们希望给定编码z，生成器网络要生成一个视频。文章探索了两种不同的网络结构。
One Stream Architecture：
结合时空三维卷积（spatio-temporal convolutions）和反卷积（fractionally strided convolutions）来生成视频，三维卷积提供空间和时间不变性，反卷积可以在深度网络中更有效地实现上采样。本文使用的网络结构受到《Unsupervised representation learning with deep convolutional generative adversarial networks》的启发，在该论文的基础上添加了时间的维度，本文网络结构有五层，除了第一层使用的2×4×4的卷积核（time×width×height），其他层使用的是4×4×4的卷积核，步长为2。
Two Stream Architecture：
one stream architecture的结构不能描述通常世界是静止的只有目标运动的，本文尝试用模型显示的表示这种现象，强制背景是静态的目标时动态的。
这里写图片描述

实验中生成器最终产生的是64×64分辨率的32帧视频。

3.3判别器网络

判别器应该解决的两个问题是：首先必须能够区分真是的场景和合成的场景，其次必须能够识别出帧之间的实际运动。本文使用的是一个五层的时空卷积网络，卷积核是4×4×4，网络的结构是生成器中前景生成网络的反向过程，将其中的反卷积过程（上采样）变成了卷积过程(下采样)，将最后一层变成了二分类输出。

（要想完整的理解整个流程，需要再仔细看一下GAN相关的）

4.实验

（实验部分没仔细看）

思考：这篇论文的想法应该是把GAN用在视频场景生成，利用了时空三维卷积和反卷积等。应该算是在GAN基础上的扩展吧

5.下一篇

下一篇要读的是《Visual Dynamics: Probabilistic Future Frame Synthesis via Cross Convolutional Networks》。

如果您觉得本文有哪些错误，欢迎及时告知纠正，也渴望相关方向的朋友一起交流～

阅读全文

0 0