Tube Convnets: Better Exploiting Motion for Action Recognition (动作识别 2)
来源:互联网 发布:js alert弹出html代码 编辑:程序博客网 时间:2024/04/20 19:32
原文链接(可能需要购买IEEE的数据库)
动作分析是一个研究挺热的点。相比于静态图片分析,这个任务更有挑战性,因为大量的类间变化,低分辨率,高维视频数据等等。
早期,研究同仁们主要使用手工特征,例如STIP(STIP是一类表述方法,就是把静态图中的那些局部特征点方法,变成3D,如3D-SIFT,3D-HOG),DT(dense trajectory),再结合统计方法(Fisher Vector 配上 GMM),用于视频的表达,来做识别和分类。然而手工特征总是会遇到瓶颈。
【就好像自动特征就一定比手工特征好似的,不一定啊。关于特征的选择,人已经完败给计算机了吗?】
而近期,深度学习,尤其是CNN,在图像分类中取得了巨大的成功,这就使得大家都想把深度学习的方法用在视频领域。这类方法常常采取端到端的方式,从像素到标签。第一个设计3D CNN的哥们,把空间维度和时间维度,等同对待。不过有人发现(LiFeiFei[11]),在单帧图像上处理要比在考虑图像序列效果好。这可能是因为,深度卷积网络如果数据的维数太高,效果就会差,不仅要学习低维动作特征,还要学习高维的特征。为了解决这个问题,有人就设计了时域流的卷积网络,用堆叠的光流场作为输入,效果还不错。
【端到端的解决方法必然是不行的,没有“银弹”。在对问题不理解,对方法本身不理解的情况下,任何做法都是盲目的。LiFeiFei这篇文章处理的问题,是对1百万个体育视频做分类,你想啊,让你去给视频分类,你是不是只要看一帧图像就够了?所以这个问题下,其实还是静态图片的分类问题,和视频没啥关系。视频和图片的本质区别,就在于那些因为时间,而产生的信息,也就是那些会时间变化的量。这些信息是单张图片无法表达的,比如行为,比如动作,而像“给视频分类”,视频的类别信息,往往和时间是没关系的,一张图片足以表达。】
基于光流的运动表达,不足之处在于,光流信号有很多噪声,可能由无关对象或者相机运动引起的。如果这些不带任何信息的噪声输入了模型,就会成为模型的沉重负担。所以,如何抑制噪声就是一个很关键的问题。从RCNN获得的启发,RCNN的核心思想是,先找到ROI,然后只在这个ROI里面,极大地发挥CNN的威力。同理,我们期望能在视频中找到重要目标提供的基本运动原子(basic motion atom)(就是题目中的tube,管子),把它们输入给卷积网络,让它们来学习高维特征。
【这里的basic motion atom,是不是就是我一直在寻找的最小运动事件?如果是的话,那就太棒了!】
用目标检测(人体检测)和聚类技术找到主要的tube(3D的region),然后丢给深度卷积网络,进行动作识别。另外,还发现,这些动作tube也可以用来解决运动定位问题。
【这个方法就是RCNN的三维版本,只不过换了一个名字,其实可以叫3D-RCNN。有个问题:3D region的提取方法是不是最优的?它这里用了目标检测(FasterRCNN)+聚类(DBSCAN)+管子连续化(Mean Shift),应该还有更好的方法】
- Tube Convnets: Better Exploiting Motion for Action Recognition (动作识别 2)
- Discriminative Action States Discovery for Online Action Recognition (动作识别 3)
- Spatio-temporal Fastmap-based Mapping for Human Action Recognition (动作识别 1)
- 视频动作识别--Two-Stream Convolutional Networks for Action Recognition in Videos
- 视频动作识别--Convolutional Two-Stream Network Fusion for Video Action Recognition
- 视频动作识别--Temporal Segment Networks: Towards Good Practices for Deep Action Recognition
- READING NOTE: Pooling the Convolutional Layers in Deep ConvNets for Action Recognition
- Cross-view Action Recognition 跨视角动作识别方法
- 视频动作识别--Towards Good Practices for Very Deep Two-Stream ConvNets
- 行为识别阅读笔记(paper+code):Real-time Action Recognition with Enhanced Motion Vector CNNs
- 人体运动识别:motionlet: Mid-level 3D level parts for human motion recognition
- Journals for Action Recognition
- 双流网络行为识别-Spatiotemporal Residual Networks for Video Action Recognition-论文阅读
- Action Recognition(2)
- 行为识别(action recognition)相关资料
- 行为识别(action recognition)相关资料
- 行为识别(action recognition)相关资料
- 视频人员行为识别(Action Recognition)
- codeforces C. Color Stripe
- python学习之flask的01篇(linux+windows)
- 设计模式六大原则(4):接口隔离原则
- Java中如何避免equals方法的隐藏陷阱
- unity相机跟随人物移动
- Tube Convnets: Better Exploiting Motion for Action Recognition (动作识别 2)
- 入驻加盟好 还是自己建站好
- SharePoint: 史上最全c#设置和获取Fields
- 大数据概述及其生态圈(三)数据采集
- IT忍者神龟之Hadoop第一天东哥
- JAVA web 起步学习总结<一>
- Android Fragment 数据动态更新的问题
- java中的强制类型转换
- linux crontab操作范例