(无监督学习&&视频预测)所读论文[1]:PredNet

来源:互联网 发布:程序员 网络工程师 编辑:程序博客网 时间:2024/06/15 18:52

2017-8-21:

(PredNet) 《Deep Predicitve Coding Networks for Video prediction and unsupervised Learning》

1.基本信息

PredNet是ICLR 2017哈佛大学的论文,采取CNN+LSTM的视频预测,将图像预测误差在网络中前向传递,学习到视频特征表示。[论文](https://arxiv.org/abs/1605.08104)[源码github](https://github.com/coxlab/prednet)

2.网络结构

主要看论文中的结构图和伪代码过程。
PredNet的结构如下图:

这里写图片描述
网络包含一系列重复的堆叠的块,每个这样的块可以看作是一层,每个块包含四个基本部分:输入卷积层Al,递归表示层Rl,预测层A^l,误差表示El,横向排列展开就是按照时间展开的了。

Rl是递归卷积神经网络,它会产生一个预测A^l,预测输入Al下一帧是什么样的。
网络计算AlA^l的差,输出误差表示El,误差El被通过一个卷积层变成下一层的输入Al+1,
递归预测层Rl的输入是El和网络下一级表示层的Rl+1

对应的公式表示如下图:
这里写图片描述

3.算法伪代码

如下图:
这里写图片描述

可根据伪代码大概画一下整个的流程,然后对应源码理解一下。如下图:
这里写图片描述

4.实验部分

大概看了一下源代码,将结构图画出来之后理解代码会好一些,但是还是有一些地方没吃透。本来想在自己电脑上运行一下,但是出现了一个问题不知道该怎么解决了,如下图:

这里写图片描述

如果有哪位大神遇到过这个问题或者知道这种问题该怎么解决,麻烦告知一下吧,不胜感激!

论文中作者做了丰富的对比实验,但是我没能仔细看进去,等以后需要的时候再回来仔细看一下这部分吧。

5.总结

本文展示了一种能够预测在合成和自然图像序列中的未来帧的预测编码启发式架构,重要的是,表明要学习预测对象或场景在框架中未来如何移动,赋予潜在的解码优势参数,可以提高对于对象的表达能力性能表现。 因为想要预测一个物体的变化,就需要建立物体内在模型和它的运动模型。
认为预测可以作为一个强大的无监督学习信号,因为准确地预测未来的帧需要至少一个隐含的模型
组成的对象以及它们如何被允许移动发展更深层次的理解网络学习的表征以及扩展架构在未来的方向中非常重要。

6.思考

考虑把这种思想以及这种网络结构引进到目标跟踪或者视频目标检测中来。

7.下一篇

下一篇要读的是本文引用的发表在NIPS2016的论文《Generating Videos with Scene Dynamics》。

如果您觉得本文有哪些错误,欢迎及时告知纠正,也渴望能有相关方向的朋友一起交流~

阅读全文
0 0
原创粉丝点击