(无监督学习&&视频预测)所读论文[1]:PredNet
来源:互联网 发布:程序员 网络工程师 编辑:程序博客网 时间:2024/06/15 18:52
2017-8-21:
(PredNet) 《Deep Predicitve Coding Networks for Video prediction and unsupervised Learning》
1.基本信息
PredNet是ICLR 2017哈佛大学的论文,采取CNN+LSTM的视频预测,将图像预测误差在网络中前向传递,学习到视频特征表示。[论文](https://arxiv.org/abs/1605.08104)[源码github](https://github.com/coxlab/prednet)
2.网络结构
主要看论文中的结构图和伪代码过程。
PredNet的结构如下图:
网络包含一系列重复的堆叠的块,每个这样的块可以看作是一层,每个块包含四个基本部分:输入卷积层
网络计算
递归预测层
对应的公式表示如下图:
3.算法伪代码
如下图:
可根据伪代码大概画一下整个的流程,然后对应源码理解一下。如下图:
4.实验部分
大概看了一下源代码,将结构图画出来之后理解代码会好一些,但是还是有一些地方没吃透。本来想在自己电脑上运行一下,但是出现了一个问题不知道该怎么解决了,如下图:
如果有哪位大神遇到过这个问题或者知道这种问题该怎么解决,麻烦告知一下吧,不胜感激!
论文中作者做了丰富的对比实验,但是我没能仔细看进去,等以后需要的时候再回来仔细看一下这部分吧。
5.总结
本文展示了一种能够预测在合成和自然图像序列中的未来帧的预测编码启发式架构,重要的是,表明要学习预测对象或场景在框架中未来如何移动,赋予潜在的解码优势参数,可以提高对于对象的表达能力性能表现。 因为想要预测一个物体的变化,就需要建立物体内在模型和它的运动模型。
认为预测可以作为一个强大的无监督学习信号,因为准确地预测未来的帧需要至少一个隐含的模型
组成的对象以及它们如何被允许移动发展更深层次的理解网络学习的表征以及扩展架构在未来的方向中非常重要。
6.思考
考虑把这种思想以及这种网络结构引进到目标跟踪或者视频目标检测中来。
7.下一篇
下一篇要读的是本文引用的发表在NIPS2016的论文《Generating Videos with Scene Dynamics》。
如果您觉得本文有哪些错误,欢迎及时告知纠正,也渴望能有相关方向的朋友一起交流~
- (无监督学习&&视频预测)所读论文[1]:PredNet
- (无监督学习&&视频预测)所读论文[2]:Generating Videos with Scene Dynamics
- PredNet阅读笔记——从视频预测的角度学习视频表征
- 什么是无监督学习(监督学习,半监督学习,无监督聚类)?
- 【深度学习】论文导读:无监督域适应(Deep Transfer Network: Unsupervised Domain Adaptation)
- ICML论文精选:无监督学习的研究和应用
- 监督学习?无监督学习?
- 监督学习&无监督学习
- 机器学习笔记(1)-简介监督学习与无监督学习
- 机器学习初览1(监督学习与无监督学习)
- 机器学习笔记1---监督学习和无监督学习
- 机器学习(1)监督学习和无监督学习
- 机器学习笔记 (一) 监督学习、无监督学习
- python_机器学习(1)无监督学习
- 吴恩达 机器学习笔记一(lecture 1)(监督、无监督学习)
- 机器学习(二)无监督学习
- 机器学习-(2):无监督学习
- 无监督学习:无监督降维
- 64. Minimum Path Sum
- 基于OpenStack Ocata版本源码分析-oslo
- tcp的三次握手和四次挥手、长链接和短链接
- jQuery JS 禁用滚动条和启用滚动条
- Longest Substring without Repeating Characters
- (无监督学习&&视频预测)所读论文[1]:PredNet
- MD5
- oracle表空间
- 在SCDN上的第一篇博客
- Atcoder Regular Contest 081 总结
- 2017.8.22坐标问题
- 【NOIP2017提高A组模拟8.22】密码
- 九宫格横竖等于4 用代码实现
- Windows安装Bochs并运行Linux Demo