深度学习 vs SLAM

来源：互联网发布：土豪直播软件下载编辑：程序博客网时间：2024/05/15 16:16

SLAM 小组讨论真是乐趣无穷。在我们进入重要的「深度学习 vs SLAM」讨论之前，我应该说明每一位研讨会展示者都同意：语义对构建更大更好的 SLAM 系统是必需的。关于未来的方向，这里有很多有趣的小对话。在争论中，Marc Pollefeys（一位知名的 SfM 和多视角几何研究者）提醒所有人「机器人是 SLAM 的一个杀手级应用」，并建议我们保持对「大奖」的关注。这令人非常惊讶，因为 SLAM 传统上是适用于机器人问题的，但过去几十年机器人并没有什么成功（谷歌机器人？），导致 SLAM 的关注重点从机器人转移到了大规模地图构建（包括谷歌地图）和增强现实上。研讨会上没人谈论过机器人。

1.将语义信息集成到 SLAM 中

人们对将语义整合到今天最出色的 SLAM 系统中有很大兴趣。当涉及语义时， SLAM 社区不幸地卡在了视觉词袋（bags-of-visual-words）的世界里，而在如何将语义信息整合进他们的系统上没有什么新想法。在语义一端，我们现在已经看到 CVPR/ICCV/ECCV 上冒出了很多实时语义分割演示（基于卷积神经网络）；在我看来，SLAM 需要深度学习，而深度学习也一样需要 SLAM。

2.「端到端学习（end-to-end learning）会主宰 SLAM 吗？」

在 SLAM 研讨会小组讨论结束时，Zeeshan Zia 博士提出了一个震惊所有人的问题，并引发了一场充满能量的讨论，令人难忘。你应该看看小组成员们脸上的表情。那就像是将一个深度学习的火球投向一群几何学家。他们的面部表情表达出了他们的困惑、愤怒和厌恶。他们想：「你怎么敢质疑我们？」正是在这些稍纵即逝的时刻，我们才能真正体会到大会的体验。Zia 的问题基本上是：「在构建今天的 SLAM 系统时，端到端学习很快就将取代大部分人工劳动吗？」

Zia 的问题非常重要，因为端到端的可训练系统已经慢慢进入到了很多高级的计算机问题中，相信 SLAM 会是一个例外是没有道理的。有好几位展示者都指出当前的 SLAM 系统过于依赖几何，以至于让完全基于深度学习的 SLAM 系统看起来不合理了——我们应该使用学习技术得到更好的点描述，而不要管几何。「你可以使用深度学习做一个计算器，并不意味你应该这么做。」

尽管许多小组讨论发言人都使用了有些肯定的「不行」回应，但让人惊讶的是，却是 Newcombe 声援了深度学习和 SLAM 联姻的可能。

3.Newcombe 的提议：使用 SLAM 助力深度学习

尽管 Newcombe 在深度学习可能如何帮助 SLAM 上没有提供很多证据或想法，但他却为 SLAM 如何可能为深度学习提供帮助给出了一条清晰的路径。想想看我们使用大规模 SLAM 已经构建出的地图以及这些系统所提供的对应（correspondence）——这难道不是一个构建能帮助深度学习的万亿级图像到图像「相关」数据集的清晰路径吗？其基本思路是：今天的 SLAM 系统是大规模的「对应引擎」，可以用来生成大规模数据集，而这正是深度卷积神经网络所需要的。

结语

这次 ICCV 大会上主流的工作（重在机器学习）和本次实时 SLAM 研讨会所呈现出现的工作（重在束调整等几何方法）之间存在相当大的脱节。主流的计算机视觉社区在过去十年内已经见证了多次小型变革（如：Dalal-Triggs、DPM、ImageNet、ConvNets、R-CNN），而今天的 SLAM 系统和它们八年前的样子并没有很大的不同。Kinect 传感器可能是 SLAM 领域唯一的最大的彻底变革的技术，但基础算法仍旧保持着原样。

今天的 SLAM 系统能帮助机器在几何上理解眼前的世界（即在本地坐标系中构建关联），而今天的深度学习系统能帮助机器进行分类推理（即在不同的对象实例之上构建关联）。总的来说，在视觉 SLAM 上，我与 Newcombe 和 Davison 一样兴奋，因为基于视觉的算法将会将增强现实和虚拟现实转变成一个价值数十亿美元的产业。但是，我们不应忘记保持对那个「万亿美元」市场的关注，那个将重新定义「工作」的市场——机器人。机器人 SLAM 的时代很快就要到来了。

0 0