NoScope：极速视频目标检测

来源：互联网发布：mp3网络歌曲免费下载编辑：程序博客网时间：2024/06/06 16:32

一.提出背景

在基于CNN的方法提升到一个很高的准确度之后，效率又成为人们所关注的话题，目前兼备准确度和效率的方法包括 SSD、YOLO v2，其检测效率通常能到达 30-100FPS，而这里面的代价就是上万块的显卡，这个代价是相当高的。当下视频获取设备（CCTV摄像头）成本通常是几百块，而采用上述分类算法，其成本可能是几千，这就是视频获取和视频分析之间的巨大鸿沟。

基于此，斯坦福大学提出了一种系统 NoScope，将视频分析的速度提升上千倍，我们接下来就看看这个牛逼吹的很大的系统到底是什么？

论文：NoScope: Optimizing Neural Network Queries over Video at Scale 【点击下载】

TensorFlow代码：【Github】

核心思想：由于视频目标是连续的，里面包含了大量时间局部性（temporal locality，即在不同的时间是相似的）和空间局部性（spatial locality，即在不同场景中看起来是相似的）。通过以下两点来进行优化：

1）通过跳帧减少目标检测的实际执行开销，跳帧方法包括按照时间、按照相邻帧之间的相似性；
2）针对不同场景（对应不同视角和特定目标），通过训练轻量级CNN来加速单帧检测开销；

在揭开神秘面纱之后，是不是发现被忽悠了？和我一起喊出来吧：有必要吹的这么凶么？

二.算法框架

算法实际上是分成三个部分：

1）Model Specialization
针对特定场景训练的轻量级CNN模型，层数和Channel都降到最低。
2）Difference Detection
差异性检测，用于跳过与前面帧变化不大的帧，速度更快。
3）Cost-based Model Search
基于代价的模型选择，确定合适的模型进行检测。

来看系统架构图：