论文笔记:A Critical Review of Action Recognition Benchmarks

来源:互联网 发布:mysql 快照读 当前读 编辑:程序博客网 时间:2024/05/20 09:21

这篇论文简要介绍了2004-2012年被提出的action recognition的数据集,包括KTM、HMDB51,UCF50,ASLAN等18个。虽然论文中根据数据集生成条件(拍摄环境)将其大致分为实验室特定拍摄(controlled sets)、影视数据(TV/MP)、非限制拍摄(in the wild),但这并不是行文的主要目的。

论文想通过对这些数据集的分析(包括类别、时长、拍摄状况、内容、技术细节等)以及数据集上的最好准确率,来说明哪些旧的数据集可能已经不具有太大的挑战。同时,从这些分析中可以看出数据集与现实情况(real-world)的差距(gap)。

各种数据集的比较

早些年的数据集(KTH、UIUC1等)是理想环境下构建的(“in the lab”),通常会有很强的限制条件,比如动作都是同一个做的,这样的话,recognition的难度与现实情况下的相比会大打折扣。


后来出现的一些数据集是从电视电影等精良制作的视频中收集的,这些视频的背景会复杂得多,也更有难度。但由于是影视作品的镜头,因此大都画面比较清晰、角度好、遮挡少,因此也与现实情况有一定差距。


而新近提出的有人们上传到YouTube的视频中收集的数据集则更加接近真实情况,而且还会有很多相机抖动或移动(camera motion)带来的挑战。

各类数据结果比较

0 0
原创粉丝点击