Tube Convnets: Better Exploiting Motion for Action Recognition (动作识别 2)

来源：互联网发布：js alert弹出html代码编辑：程序博客网时间：2024/04/20 19:32

原文链接（可能需要购买IEEE的数据库）

动作分析是一个研究挺热的点。相比于静态图片分析，这个任务更有挑战性，因为大量的类间变化，低分辨率，高维视频数据等等。

早期，研究同仁们主要使用手工特征，例如STIP（STIP是一类表述方法，就是把静态图中的那些局部特征点方法，变成3D，如3D-SIFT,3D-HOG），DT（dense trajectory），再结合统计方法（Fisher Vector 配上 GMM），用于视频的表达，来做识别和分类。然而手工特征总是会遇到瓶颈。

【就好像自动特征就一定比手工特征好似的，不一定啊。关于特征的选择，人已经完败给计算机了吗？】

而近期，深度学习，尤其是CNN，在图像分类中取得了巨大的成功，这就使得大家都想把深度学习的方法用在视频领域。这类方法常常采取端到端的方式，从像素到标签。第一个设计3D CNN的哥们，把空间维度和时间维度，等同对待。不过有人发现(LiFeiFei[11])，在单帧图像上处理要比在考虑图像序列效果好。这可能是因为，深度卷积网络如果数据的维数太高，效果就会差，不仅要学习低维动作特征，还要学习高维的特征。为了解决这个问题，有人就设计了时域流的卷积网络，用堆叠的光流场作为输入，效果还不错。

【端到端的解决方法必然是不行的，没有“银弹”。在对问题不理解，对方法本身不理解的情况下，任何做法都是盲目的。LiFeiFei这篇文章处理的问题，是对1百万个体育视频做分类，你想啊，让你去给视频分类，你是不是只要看一帧图像就够了？所以这个问题下，其实还是静态图片的分类问题，和视频没啥关系。视频和图片的本质区别，就在于那些因为时间，而产生的信息，也就是那些会时间变化的量。这些信息是单张图片无法表达的，比如行为，比如动作，而像“给视频分类”，视频的类别信息，往往和时间是没关系的，一张图片足以表达。】

基于光流的运动表达，不足之处在于，光流信号有很多噪声，可能由无关对象或者相机运动引起的。如果这些不带任何信息的噪声输入了模型，就会成为模型的沉重负担。所以，如何抑制噪声就是一个很关键的问题。从RCNN获得的启发，RCNN的核心思想是，先找到ROI，然后只在这个ROI里面，极大地发挥CNN的威力。同理，我们期望能在视频中找到重要目标提供的基本运动原子（basic motion atom）（就是题目中的tube，管子），把它们输入给卷积网络，让它们来学习高维特征。

【这里的basic motion atom，是不是就是我一直在寻找的最小运动事件？如果是的话，那就太棒了！】

用目标检测（人体检测）和聚类技术找到主要的tube（3D的region），然后丢给深度卷积网络，进行动作识别。另外，还发现，这些动作tube也可以用来解决运动定位问题。

【这个方法就是RCNN的三维版本，只不过换了一个名字，其实可以叫3D-RCNN。有个问题：3D region的提取方法是不是最优的？它这里用了目标检测（FasterRCNN）+聚类（DBSCAN）+管子连续化(Mean Shift)，应该还有更好的方法】

0 0