港中大汤晓鸥教授团队超越谷歌破互联网物体检测世界纪录

来源：互联网发布：虚拟专用网络怎么设置编辑：程序博客网时间：2024/04/28 03:16

港中大汤晓鸥教授团队超越谷歌破互联网物体检测世界纪录

共分享3次

Judy 发布于2015-06-09 10:19:36

ImageNet 是什么？

ImageNet 是视觉识别领域一年一度的「奥赛」，此项竞赛对计算机深度学习影响深远，任何在 ImageNet 上取得的技术进步都会给其它计算机视觉问题带来重要影响。ImageNet——大规模视觉识别挑战的识别任务之一便是对 1000 类、120 万张互联网图像进行分类。

作为当下计算机视觉领域最受关注的挑战，ImageNet 已经成为了衡量深度学习技术发展的重要指标：大量研究表明利用深度模型在竞赛中学习得到的特征可以被广泛应用到其它数据集和各种计算机视觉的问题；而由 ImageNet 训练得到的深度学习模型，更是推动计算机视觉领域发展的强大引擎。

2012 年，Hinton 所带领的深度学习小组在 ImageNet 比赛中完胜其他参赛团队，在计算视觉领域引起了轰动，掀起了深度学习的热潮。从 2012 到 2014，ImageNet 的记录也被深度学习不断刷新。

DeepID-Net 团队：我们的征途就是挑战巨人

在科技界，微软、谷歌、Facebook、百度等巨头对于研发的狂热追逐举世皆知，ImageNet 大规模视觉挑战也是其角力的重要战场。在这个战场之上，由于工业界抢占了数据和计算资源上的先机，世人普遍认为学术界很难在深度学习特别是像 ImageNet 这样大规模的挑战中与之抗衡。

ImageNet 视觉挑战中飞机、汽车、人 3 个类别的样图

物体检测是 ImageNet 视觉挑战中最难的任务，它要求从四万张图像中准确检测到 200 类物体的具体位置，并且一幅图像往往包含多个不同类别的物体。2013 年 ImageNet 挑战中最高的检测率只有 22.6%。

而在 2014 年的 ImageNet 大规模物体检测任务比赛中，谷歌更是组织了包括 2013 年的冠军成员在内的强大团队，并以 43.9% 的成绩赢得比赛。在谷歌身后，香港中文大学由欧阳万里、王晓刚、和汤晓鸥教授带领的 DeepID-Net 团队首次参赛便以 40.7% 的优异战绩位居第二名。

汤晓鸥（前排左五）、王晓刚（前排右三）教授带领的 DeepID 和 DeepID-Net 团队

几个月后，DeepID-Net 团队更是将此项成绩大幅提高至 50.3%，一举超越谷歌，达到全球最高的检测率。这一成果发表在 2015 年国际计算机视觉与模式识别大会 (CVPR) 上，是目前世界上在 ImageNet 挑战中最高记录。在 ImageNet 这样一个记录被不断刷新的舞台上，包括 DeepID-Net 在内的众多学术精英团队与工业巨无霸的竞逐愈发引人注目。而在此之前，汤晓鸥和王晓刚教授带领的 DeepID 团队在 LFW 人脸识别挑战上也有过战胜 Facebook，并在全世界首次实现人脸识别算法超越人眼识别准确率的经历。

DeepID-Net 团队的取胜之匙：把比赛带入技术创新的节奏

ImageNet 的物体检测挑战对技术能力要求极高：200 类物体在颜色、纹理、形状、长宽比、形变等方面差异巨大；即便属于同一类别，光线、角度、遮挡、部件变形扥因素也使得物体间存在显著的差异。这些都要求通过深度学习得到的特征表达具有强大的视觉描述能力，能够区分众多的物体类别和复杂背景，同时对类内变化具有鲁棒性。

另外关键挑战是运算数据所需要的超大计算量和漫长的测试周期。按照原有流程，基于单卡 NVIDIA Tesla K40 GPU 在 ImageNet 完成一次完整的训练和测试大概需要三周。但对于互联网巨头们来说，基于大规模的 CPU/GPU 集群，会使这个周期大大缩短。谷歌的 GoogLeNet 采用了超过二十层的网络结构，有大量需要手工设定的网络参数。这些研究工作都需要强大的计算资源作为支撑。

正是 GPU 硬件的快速发展使得学术科研小组从事此类研究成为了可能。DeepID-Net 团队的研发是基于有限的 NVIDIA Tesla K40 GPU 卡。DeepID-Net 团队认为，过分依赖数据和计算资源，反而会放松对技术先进性的追求。想要在几个月内赶超行业巨头，就必须在物体检测的整个流程和模型本身进行不断的创新。

他们创造性的将深度模型的各层和传统物体检测系统的各个关键步骤建立对应关系，而不是简单的将深度模型看成黑盒子。这种对应关系可以启发人们利用计算机视觉的领域知识改进深度模型。

·DeepID-Net 团队在卷积网络的基础上提出了新的形变层。通过形变层，不同类物体可以共享部件模型和形变模型，有效的处理由于物体形变、遮挡和姿态变化带来的类内变化。

·针对物体检测任务，提出新的特征预训练策略，使得深度学习得到的特征对物体的位置和大小更加敏感，从而对物体的定位更加准确。

·将图像全局的上下文信息有效的融入到物体检测中。

·通过早期拒绝负样本和集成流程中的若干步骤，将训练和测试的周期缩短到原来的 1/3，大大加快了研发速度。

这些创新都使得基于深度学习的物体检测的准确率和训练效率有了大幅的提升。

大卫挑战歌利亚，不只是竞争

结果恰如世人所看到的那样，DeepID-Net 团队在 ImageNet 上的成功表明，通过技术上的不断创新，学术界仍可和互联网巨头在深度学习领域一争高下。在这背后，DeepID-Net 团队则证明了深度学习不仅仅是数据和计算资源的堆砌，其在理论和算法上都有着巨大的发展空间，而这恰恰是众多学术精英团队的优势所在。

IEEE 模式分析与机器智能汇刊 (PAMI) 的前主编 Rama Chellappa 引用《圣经》故事形象的评价 DeepID-Net 团队的工作，「你们与谷歌的竞赛令我感到着迷。你们是牧羊人大卫，谷歌是巨人歌利亚。」大卫和歌利亚都有各自的优势。我们也希望这样的竞争持续进行下去，众多来自学术界和工业界的团队通过各自的努力，从不同的方面推动深度学习和计算机视觉技术的进步，不断将人工智能推上新的高峰。

0 0