谷歌新发布了一个精确标注动作的数据集,堪称ImageNet视频版

来源:互联网 发布:51单片机是8051吗 编辑:程序博客网 时间:2024/05/24 03:07

作者: Chunhui Gu & David Ross

编译:魏子敏,龙牧雪,谭婧


就在昨天,谷歌blog发布了一个堪比“视频版”ImageNet的数据集-AVA(A Finely Labeled Video Dataset for Human Action Understanding ),为视频动作识别这一图像识别中的重大课题提供了新的“原材料”。这个崭新的数据集填补了在复杂的场景下,多人执行不同操作的标注空白



以下为google blog原文,大数据文摘对其进行了编译:


在计算机视觉领域,教会机器在视频中理解人类行为是一个非常基础的研究课题,这一点对于视频搜索和发现,运动分析以及手势交互都至关重要。过去几年,尽管我们在识别图片中的物体这个领域取得了一些令人兴奋的突破,但是,识别人的动作仍然是一个比较大的挑战。


这是由于,视频中的“动作”识别,天然地比物体识别更困难,这就使得建立一个优质的动作标注视频数据集非常不容易。目前确实存在很多重要的动作标注数据集,例如,ucf101,activitynet和DeepMind的Kinetics。尽管这些数据集都采用图像分类标签的标注结构,给每个视频或视频剪辑的动作进行了一定的标注。但是,复杂的场景下,标注了多人执行不同操作的数据集在业内依然空白。


为了促进对人类动作识别的进一步研究,我们发布了AVA(atomic visual actions)。这个数据集为视频中的每个人都打上了多个动作标签。AVA由YouTube上公开视频的URLs组成,标注了80个独立个体行为(例如“走”、“踢(一个物体)”、“握手”,共有57.6k视频片段,96k标记的人类行动,以及总的210K动作标签。你可以浏览网站(https://research.google.com/ava/)来探索数据集和下载标注,以及阅读我们的arXiv论文,论文描述了数据集的设计与开发(论文地址:https://arxiv.org/abs/1705.08421)。

                                

相比其他的动作数据集,AVA数据集有以下这些特点:

                                               

以人为中心进行标注:每个动作标签都基于人物本身,而不是一段视频或者剪辑片段。因此,我们能够为不同动作中的各类人加上不同的标签,这一点非常常见。

                                              

原子级视觉动作:我们对需要标注的动作进行了合理的时间限制(3秒钟),以确保动作符合人的生理机能,同时有明显的视觉特征。


真实视频作为视觉材料:我们使用不同题材和国家的电影作为AVA的标注材料,进而确保数据库中包含各类型的人类行为。


视频来源中的3秒视觉片段标签,用方框标注出每个动作素材(为确保清晰,每个例子中只出现了一个框。)

                                                  

为了创作AVA数据集,我们首先从YouTube上搜集了一批种类各异的长视频内容,以“电影”和“电视剧”作为主要标签,其中的专业演员来自不同国家。我们从每个视频中剪辑出了一段15分钟的片段,并且标准化地将这些片段组合成为了一段视频样本,每一段这样的样本都包换300个无重叠的3秒片段。这一采样策略确保了相关内容中动作的连贯有序。


接下来,我们手动标注了所有以3秒隔断、被方框框起来的动作。对于每一个标注框中人,标注者会从一个之前选出来的动作词库(包含80类目)中选择合适的标签,来描述框中人的动作。这些动作将被划分为三组:姿态类,人-物交互类,人-人交互类。为了确保标签对于动作的穷尽性,我们给AVA的所有标签打上了较多的分类,我们将其总结如下:

图:AVA动作标签分类:x轴上显示的标签仅仅罗列了我们词汇表中的部分                                        

                                            

通过AVA,我们得到了一些有趣的统计数据,这是之前任何数据集中都没有体现出来的。比如,由于大量人物都被标注了至少两个动作,我们可以发现当多个动作标签同时出现的时候,动作的组合具有一定规律。下面这张图显示了AVA中出现最频繁的“动作组合”。这印证了我们的常识:人们通常一边“唱歌”一边“玩乐器”,在“和孩子一起玩”的同时“把一个人举起来”,在“接吻”时“拥抱”。


图:AVA中同时出现最多的“动作组合”


(吹黑管的小编哭晕,永远不能一边唱歌一边演奏呢)

                                               

为了验证AVA数据集中人类动作识别系统的有效性,我们在AVA上实现了一个已有的深度学习基准模型,这个模型在一个小得多的JHMDB数据集上表现良好。由于比例、背景、摄影角度的原因,这个模型在AVA上的表现属于中等水平(18.4%mAP)。这表明,在未来几年中,AVA都将对开发和验证新的动作识别算法非常有用。


我们希望AVA的发布能推动动作识别的进步,并为多人同时执行复杂动作标签之上的建模提供机会。我们会持续扩大和改进AVA,并且非常希望得到你们的反馈。


优质课程推荐《人工智能的数学基础》

往期学员评价(by 张铮)


《人工智能的数学基础》这门课值得AI新人学习。

之前看李航的《统计学习方法》一直看不懂。上了这门课才知道以“凸优化-SVM”为一轴,以“梯度下降-矩阵”为一轴,内容相互交叉。学习课程之后,再看机器学习基础书籍就没有太多压力了。 真实体会。




往期精彩文章


点击图片阅读

人工智能将如何改变公司战略:亚马逊思维试验

阅读全文
0 0
原创粉丝点击
热门问题 老师的惩罚 人脸识别 我在镇武司摸鱼那些年 重生之率土为王 我在大康的咸鱼生活 盘龙之生命进化 天生仙种 凡人之先天五行 春回大明朝 姑娘不必设防,我是瞎子 税务登记证5年没有办怎么办 二证合一后税务登记证怎么办? 微信漂流瓶打招呼对方收不到怎么办 添加不上徽信好友的微信帐号怎么办 手机号码不用了微信密码忘了怎么办 别人用我的手机号码注册微信怎么办 电脑此网站的安全证书有问题怎么办 起诉离婚开庭时被告不到场怎么办 商标35类被别人注册了怎么办 商标被注销后被别人注册怎么办 电商35类商标被抢注怎么办 血小板太低怎么办可以吃水果吗? 微信好友删除了只记得昵称怎么办 优酷会员1080p很卡怎么办 电脑最下面的任务栏不显示怎么办 ea账号保留的问题忘了怎么办 微博超级话题账号被屏蔽怎么办 梦幻西游手机将军令号码换了怎么办 文档的内容被锁定无法修改怎么办 用户没有权限访问u盘时该怎么办? 电脑找不到ip地址连不上网怎么办 商标提前被别人注册微博昵称怎么办 扫码注册显示手机号被占用怎么办 vivo手机屏锁密码忘了怎么办 手机号注册微博手机号不用了怎么办 微博更换手机号被别人注册过怎么办 怎么有个qq注册验证码怎么办 12306手机丢了密码忘了怎么办 教师考试注册时邮箱填写错误怎么办 计算机二级注册时邮箱填错了怎么办 注册时执业范围填错了怎么办 百度号被盗了申诉不回来怎么办 斗鱼直播伴侣显示分类不可用怎么办 斗鱼黑名单显示网络加载失败怎么办 平台登录验证码只能显示一半怎么办 想改微博密码但是忘了原密码怎么办 微博账号密码都忘了怎么办 新浪博客忘记邮箱和密码忘了怎么办 新浪助学贷款邮箱密码忘了怎么办 客厅的父母乐忘记密码了怎么办 微博密码忘记了手机号也换了怎么办