Tube Convnets: Better Exploiting Motion for Action Recognition (动作识别 2)

来源:互联网 发布:js alert弹出html代码 编辑:程序博客网 时间:2024/04/20 19:32

原文链接(可能需要购买IEEE的数据库)

动作分析是一个研究挺热的点。相比于静态图片分析,这个任务更有挑战性,因为大量的类间变化,低分辨率,高维视频数据等等。

早期,研究同仁们主要使用手工特征,例如STIP(STIP是一类表述方法,就是把静态图中的那些局部特征点方法,变成3D,如3D-SIFT,3D-HOG),DT(dense trajectory),再结合统计方法(Fisher Vector 配上 GMM),用于视频的表达,来做识别和分类。然而手工特征总是会遇到瓶颈。

【就好像自动特征就一定比手工特征好似的,不一定啊。关于特征的选择,人已经完败给计算机了吗?】

而近期,深度学习,尤其是CNN,在图像分类中取得了巨大的成功,这就使得大家都想把深度学习的方法用在视频领域。这类方法常常采取端到端的方式,从像素到标签。第一个设计3D CNN的哥们,把空间维度和时间维度,等同对待。不过有人发现(LiFeiFei[11]),在单帧图像上处理要比在考虑图像序列效果好。这可能是因为,深度卷积网络如果数据的维数太高,效果就会差,不仅要学习低维动作特征,还要学习高维的特征。为了解决这个问题,有人就设计了时域流的卷积网络,用堆叠的光流场作为输入,效果还不错。

【端到端的解决方法必然是不行的,没有“银弹”。在对问题不理解,对方法本身不理解的情况下,任何做法都是盲目的。LiFeiFei这篇文章处理的问题,是对1百万个体育视频做分类,你想啊,让你去给视频分类,你是不是只要看一帧图像就够了?所以这个问题下,其实还是静态图片的分类问题,和视频没啥关系。视频和图片的本质区别,就在于那些因为时间,而产生的信息,也就是那些会时间变化的量。这些信息是单张图片无法表达的,比如行为,比如动作,而像“给视频分类”,视频的类别信息,往往和时间是没关系的,一张图片足以表达。】

基于光流的运动表达,不足之处在于,光流信号有很多噪声,可能由无关对象或者相机运动引起的。如果这些不带任何信息的噪声输入了模型,就会成为模型的沉重负担。所以,如何抑制噪声就是一个很关键的问题。从RCNN获得的启发,RCNN的核心思想是,先找到ROI,然后只在这个ROI里面,极大地发挥CNN的威力。同理,我们期望能在视频中找到重要目标提供的基本运动原子(basic motion atom)(就是题目中的tube,管子),把它们输入给卷积网络,让它们来学习高维特征。

【这里的basic motion atom,是不是就是我一直在寻找的最小运动事件?如果是的话,那就太棒了!】

用目标检测(人体检测)和聚类技术找到主要的tube(3D的region),然后丢给深度卷积网络,进行动作识别。另外,还发现,这些动作tube也可以用来解决运动定位问题。

【这个方法就是RCNN的三维版本,只不过换了一个名字,其实可以叫3D-RCNN。有个问题:3D region的提取方法是不是最优的?它这里用了目标检测(FasterRCNN)+聚类(DBSCAN)+管子连续化(Mean Shift),应该还有更好的方法】

0 0
原创粉丝点击