(无监督学习&&视频预测)所读论文[2]:Generating Videos with Scene Dynamics
来源:互联网 发布:修改ssh命令默认端口 编辑:程序博客网 时间:2024/06/05 10:42
2017-8-23
Generating Videos with Scene Dynamics
1.基本信息
发表在NIPS2016;
网址:http://carlvondrick.com/tinyvideo/
2.简介
这篇论文介绍的是利用大量的无标签视频数据训练生成对抗网络GAN从而得到可以生成视频序列的模型。实验表明模型可以更好的以全帧率的速度产生小视频,可以合理的预测静态图像接下来要发生什么,此外的实验和可视化表明模型可以用弱监督学习内部有用的特征来识别动作,表明动态场景对于表征学习有发展前景。实验表明,该模型可以比单纯基线更好地以全帧速率产生一秒钟的小视频,并且我们可以预测静态图像的合理期望。 此外,实验和可视化表明,该模型在内部学习有用的功能,以最小的监督来识别动作,表明场景动力学是表征学习的有希望的信号。
3.网络模型介绍
3.1生成对抗网络基础
GAN是本文的基础,生成对抗网络的基本思想就是训练两个网络:一个生成器网络,一个判别器网络。生成器网络G试图生成一个视频,判别器网络来判断这个视频是真实的视频还是欺骗的生成视频。下图为来自知乎(https://zhuanlan.zhihu.com/p/26499443)的生成图片的GAN:
3.2生成器网络
如图
生成器网络的输入是低维的隐编码,可以从一个分布函数采样得到,我们希望给定编码z,生成器网络要生成一个视频。文章探索了两种不同的网络结构。
One Stream Architecture:
结合时空三维卷积(spatio-temporal convolutions)和反卷积(fractionally strided convolutions)来生成视频,三维卷积提供空间和时间不变性,反卷积可以在深度网络中更有效地实现上采样。本文使用的网络结构受到《Unsupervised representation learning with deep convolutional generative adversarial networks》的启发,在该论文的基础上添加了时间的维度,本文网络结构有五层,除了第一层使用的2×4×4的卷积核(time×width×height),其他层使用的是4×4×4的卷积核,步长为2。
Two Stream Architecture:
one stream architecture的结构不能描述通常世界是静止的只有目标运动的,本文尝试用模型显示的表示这种现象,强制背景是静态的目标时动态的。
实验中生成器最终产生的是64×64分辨率的32帧视频。
3.3判别器网络
判别器应该解决的两个问题是:首先必须能够区分真是的场景和合成的场景,其次必须能够识别出帧之间的实际运动。本文使用的是一个五层的时空卷积网络,卷积核是4×4×4,网络的结构是生成器中前景生成网络的反向过程,将其中的反卷积过程(上采样)变成了卷积过程(下采样),将最后一层变成了二分类输出。
(要想完整的理解整个流程,需要再仔细看一下GAN相关的)
4.实验
(实验部分没仔细看)
思考:这篇论文的想法应该是把GAN用在视频场景生成,利用了时空三维卷积和反卷积等。应该算是在GAN基础上的扩展吧
5.下一篇
下一篇要读的是《Visual Dynamics: Probabilistic Future Frame Synthesis via Cross Convolutional Networks》。
如果您觉得本文有哪些错误,欢迎及时告知纠正,也渴望相关方向的朋友一起交流~
- (无监督学习&&视频预测)所读论文[2]:Generating Videos with Scene Dynamics
- 『论文阅读』Generating Videos With Scene Dynamics
- (无监督学习&&视频预测)所读论文[1]:PredNet
- 机器学习-(2):无监督学习
- 什么是无监督学习(监督学习,半监督学习,无监督聚类)?
- 【深度学习】论文导读:无监督域适应(Deep Transfer Network: Unsupervised Domain Adaptation)
- ICML论文精选:无监督学习的研究和应用
- HTML 视频(Videos)
- 监督学习?无监督学习?
- 监督学习&无监督学习
- 机器学习笔记 (一) 监督学习、无监督学习
- 机器学习入门(2)--无监督学习
- 第10章 无监督学习(2)
- 机器学习(二)无监督学习
- python + opencv 学习系列 2 : Getting Started with Videos
- 无监督学习:无监督降维
- 机器学习(二):有监督学习、无监督学习和半监督学习
- 深度 | 一篇文章带你进入无监督学习:从基本概念到四种实现模型(附论文)
- java 显式域初始化
- ajax获取当前城市天气情况
- UNITY 单例模式的模板
- ShareSDK使用中出现,WBMFPRSA闪退问题
- 【ASP.NET】--静态网页/动态HTML/动态网页/伪静态网页
- (无监督学习&&视频预测)所读论文[2]:Generating Videos with Scene Dynamics
- oracle 用户下建表进行加密(redact)实验
- SDN原理解析-转控分离的SDN架构—学习笔记一
- 阻塞队列ArrayBlockingQueue
- python 文件目录操作
- 解决iscroll5的上拉下拉的回弹问题
- python多进程、多线程详解
- 判断质数
- 读写锁和互斥锁的区别