论文笔记：A Critical Review of Action Recognition Benchmarks

来源：互联网发布：mysql 快照读当前读编辑：程序博客网时间：2024/05/20 09:21

这篇论文简要介绍了2004-2012年被提出的action recognition的数据集，包括KTM、HMDB51，UCF50，ASLAN等18个。虽然论文中根据数据集生成条件（拍摄环境）将其大致分为实验室特定拍摄（controlled sets）、影视数据（TV/MP）、非限制拍摄（in the wild），但这并不是行文的主要目的。

论文想通过对这些数据集的分析（包括类别、时长、拍摄状况、内容、技术细节等）以及数据集上的最好准确率，来说明哪些旧的数据集可能已经不具有太大的挑战。同时，从这些分析中可以看出数据集与现实情况（real-world）的差距（gap）。

各种数据集的比较

早些年的数据集（KTH、UIUC1等）是理想环境下构建的（“in the lab”），通常会有很强的限制条件，比如动作都是同一个做的，这样的话，recognition的难度与现实情况下的相比会大打折扣。

后来出现的一些数据集是从电视电影等精良制作的视频中收集的，这些视频的背景会复杂得多，也更有难度。但由于是影视作品的镜头，因此大都画面比较清晰、角度好、遮挡少，因此也与现实情况有一定差距。

而新近提出的有人们上传到YouTube的视频中收集的数据集则更加接近真实情况，而且还会有很多相机抖动或移动（camera motion）带来的挑战。

各类数据结果比较

0 0