slam发展小结

来源：互联网发布：股票收益计算软件编辑：程序博客网时间：2024/06/01 19:04

并行追踪与制图（Parallel Tracking and Mapping）简称PTAM，于2007年由英国牛津大学主动视觉实验室的Georg Klein和David Murray提出。PTAM在机器导航，机器探索，人机互动，三维重建等方面都有应用。在这之前已经有人尝试用slam(simultaneous localization and mapping)算法来进行机器探索。PTAM系统主要是通过双核处理器将追踪和制图分开在两个线程中来实现。追踪线程用来对相机的位姿进行实时的追踪，制图线程用来绘制从视频帧中观察得到的特征点以形成三维的地图，主要是为我们的追踪线程提供数据源，不要求其为实时的操作。两个独立线程的应用，使得一些计算复杂的优化技术在不要求实时性的情况下得以运行，从而为机器导航提供了精确性和鲁棒性。

http://blog.csdn.net/q492240/article/details/52326557

LSD-SLAM 在 ECCV 2014（2014 年欧洲计算机视觉国际会议）上公开，也是我现在最喜欢的 SLAM 系统之一！Jakob Engel 在那里展示了他的系统并向观众展示了当时最炫酷的一些 SLAM 可视化。LSD-SLAM 是 Large-Scale Direct Monocular SLAM（大规模直接单眼SLAM）的缩写。对 SLAM 研究者来说，LSD-SLAM 是一个非常重要的系统，因为它不使用边角（corners）或其它任何本地特性。通过使用一种带有稳健的 Huber 损失的由粗到细的算法，直接跟踪可由图像到图像对准（image-to-image alignment）完成。这和那些基于特征的系统非常不同。深度估计（depth estimation）使用了逆深度参数化（inverse depth parametrization）（和许多其它系统一样）并使用了大量或相对小的基准图像对。该算法并不依赖于图像特征，而是靠有效地执行「纹理跟踪（texture tracking）」。全局映射是通过创建和解决姿态图形（pose graph）的「束调整」优化问题而执行的，而且这所有都是实时工作的。这个方法是半密集的，因为它仅估计靠近图像边界的像素深度。LSD-SLAM 输出比传统的特征更密集，但并不如 Kinect 类型的 RGBD SLAM 那样完全密集。

Engel 概述了原来的 LSD-SLAM 系统以及一些新成果，将它们最初的系统扩展成更有创造性的应用并实现了更有趣的部署。（见下面引用的论文）
论文：LSD-SLAM：大规模直接单眼 SLAM (J. Engel, T. Schöps, D. Cremers)，欧洲计算机视觉国际会议，2014。
Omni LSD-SLAM（全方位 LSD-SLAM）是 LSD-SLAM 的一种延伸，因观察到针孔模型（pinhole model）不能用于大视场的观测而被创造出来。这项成果提出于 IROS 2015（2015 年智能机器人和系统国际大会）（Caruso是第一作者），能用于大视场（理想情况下可超过 180 度）。Engel 的演讲很清楚地表示，你可以拿着相机以芭蕾舞般的动作（极限旋转）在你的办公室内走来走去。这是窄视场 SLAM 最糟糕的应用场景之一，但却在 Omni LSD-SLAM 中效果良好。
论文：用于全方位相机的大规模直接 SLAM (D. Caruso, J. Engel, D. Cremers)，智能机器人和系统国际大会（IROS）, 2015。
Stereo LSD-SLAM（立体 LSD-SLAM）是 LSD-SLAM 的一种用于双眼摄像头套件的延伸。这有助于获得没有限制的规模，而且其初始化是瞬时的，强烈旋转也不存在问题。尽管从学术的角度看，单眼 SLAM 是很激动人心，但如果你的机器人是一辆 30,000 美元的车或 10,000 美元的无人机原型，你应该有足够的理由使用一套带有两个乃至更多摄像头的套件。Stereo LSD-SLAM 在 SLAM 基准上表现出了相当强的竞争力。

Stereo LSD-SLAM 相当实用，能优化 SE(3) 中的姿态图形（pose graph），并包含了对自动曝光的校正。自动曝光校正的目标是让误差函数相对于仿射光照变化而不变。颜色空间仿射转换的基本参数是在匹配过程中估算出来的，但也被扔掉以估计图像到图像变换中的错误。Engel 在演讲中称，离群值（outliers）（通常是由过度曝光的图像像素造成的）往往会带来问题，需要很仔细才能处理它们的影响。

在他后面的演示中，Engel 让我们一窥了关于立体和惯性传感器的整合新研究。为了了解详情，你只能跟踪 arXiv 上的更新或向 Usenko/Engel 本人了解。在应用方面，Engel 的演示中包含了由 LSD-SLAM 驱动的自动化四轴无人机的更新视频。其飞行一开始是上下运动的，以获得对尺寸的估计，然后又使用了自由空间的三维测绘（octomap）以估计自由空间，从而让该四轴无人机可以在空间中为自己导航。

LSD-SLAM 的故事也是「基于特征 vs 直接方法」的故事，Engel 给了辩论双方公正的待遇。基于特征的方法被设计用在 Harris 那样的边角之上，而直接方法则是用整个图像进行对准。基于特征的方法更快（截至 2015 年），但直接方法在并行处理上效果很好。离群值可以通过追溯的方法从基于特征的系统中移除，而直接方法在离群值处理上没那么灵活。卷帘式快门是直接方法的一个更大的问题，而且使用全局快门或卷帘式快门模型是有意义的（见 Kerl 的研究）。基于特征的方法需要使用不完整的信息进行决策，而直接方法可以使用更多信息。基于特征的方法不需要很好的初始化，而直接方法在初始化上需要更巧妙的技巧。对直接方法的研究只有 4 年，稀疏方法则有 20 多年的历史了。Engel 乐观地认为直接方法未来将上升成为顶级方法，我也这么想。

在 Engel 演讲最后，Davison 问到了语义分割（semantic segmentation）方面的问题，而 Engel 不知道语义分割是否可以在半密集的「接近图像边界」的数据上直接执行。但是，我个人的看法是，有更好的方法可将语义分割应用到 LSD 类型的 SLAM 系统上。半密集 SLAM 可以专注于靠近边界的几何信息，而对象识别可以专注于远离这同一边界的可靠语义，从而有可能创造出一个混合了几何和语义的图像解读。
演讲三：Torsten Sattler 谈大规模定位与地图构建面临的挑战
Torsten Sattler 的演讲谈论了大规模定位与地图构建。这项工作的目的是在已有的地图内执行六个自由度的定位，尤其是移动定位。演讲中的一个关键点是：当你使用传统的基于特征的方法时，存储你的描述很快就将变得非常昂贵。视觉词汇表（visual vocabularies）（记得产品量化吗？）等技术可以显著减少存储开销，再加上某种程度的巧妙优化，描述的存储将不再成为存储瓶颈。
Sattler 的演讲给出的另一个重要的关键信息是正确数据（inliers）的数量实际上并不是相机姿态估计（ camera pose estimation）的很好的置信度测量。当特征点全都集中于图像的单一一个部分时，相机定位可能会在千里之外！一个更好的置信度测量是「有效正确数据计数（effective inlier
count）」，其可以将正确数据所在的区域作为整体图像区域的一个部分来进行审查。你真正希望得到的是整体图像上的特征匹配——如果信息散布在整个图像上，你能得到更好的姿态估计。
Sattler 对未来实时 SLAM 的演讲是这样的：我们应该关注紧凑型的地图表征，我们应该对相机姿态估计置信度有更好的理解（如树上权重下降的特征），我们应该在更有挑战性的场景中研发（例如带有平面结构的世界和在白天的地图上的夜间定位）。

演讲四：Raúl Mur-Artal 谈基于特征的方法 vs 直接方法

ORB-SLAM 的创造者 Raúl Mur-Artal 的演讲内容全部围绕着 SLAM 领域内「基于特征的方法 vs 直接方法」的争论，而他显然站在基于特征的方法一边。ORB-SLAM 可通过一个开源的 SLAM 软件包获取，而且它很难被击败。在他对 ORB-SLAM vs PTAM 的评价中，似乎 PTAM实际上常常失败（至少在 TUM RGB-D 基准上）。LSD-SLAM 在 TUM RGB-D 基准上的错误通常远高于预期。

幻灯片：Mur-Artal 的「我们仍然应该做稀疏的基于特征的 SLAM 吗？」
论文：单眼 ORB-SLAM R. Mur-Artal, J. M. M. Montiel 和 J. D. Tardos。一种多功能的准确的单眼 SLAM 系统。 IEEE Transactions on Robotics， 2015。
演讲五：Tango 项目和用于图像到图像限制的视觉环路闭合
简单来说，谷歌的 Tango 项目是世界上第一个商业化 SLAM 的尝试。来自 Google Zurich 的 Simon Lynen（之前属于 ETH Zurich）带着一个 Tango 现场演示（在一台平板电脑上）来到了研讨会，并展示了 Tango 世界的新内容。你可能不知道，谷歌希望将 SLAM 能力集成到下一代安卓设备中。
Tango 项目展示讨论了一种通过在图像到图像匹配矩阵中寻找特定的模式以进行环路闭合（ loop closure）的新方法。这个方法来自「没有固定位置的位置识别」成果。他们也做带有基于视觉的环路闭合的在线束调整。

演讲六：ElasticFusion 是没有姿态图形（pose graph）的密集型 SLAM （ Dense SLAM）
ElasticFusion 是一种需要 Kinect 这样的 RGBD 传感器的密集型 SLAM 技术。2-3 分钟就能获得单个房间的高质量 3D 扫描，这真是相当酷。（就算不是大部分）许多 SLAM 系统的场景背后都使用了姿态图形（pose graph），这种技术有一种不同的（以地图为中心）方法。该方法专注于构建地图，但其诀窍是其构建的地图可以变形，也因此得ElasticFusion（意为弹性融合）。其中算法「融合」的部分是向 KinectFusion 致敬——KinectFusion 是第一个高质量的基于 Kinect 的重建方式。Surfels 也被用作底层的基（primitives）。

    论文：DynamicFusion：非刚性场景的实时重建和跟踪. Richard A. Newcombe, Dieter Fox, Steven M. Seitz. In CVPR 2015（CVPR 2015 最佳论文）。

    论文：SLAM++：对象水平上的同步定位与地图构建. Renato F. Salas-Moreno, Richard A. Newcombe, Hauke Strasdat, Paul H. J. Kelly and Andrew J. Davison (CVPR 2013)

    论文：KinectFusion：实时密集表面地图构建和跟踪. Richard A. Newcombe Shahram Izadi,Otmar Hilliges, David Molyneaux, David Kim, Andrew J. Davison, Pushmeet Kohli, Jamie Shotton,
     Steve Hodges, Andrew Fitzgibbon (ISMAR 2011, 最佳论文奖！)

我有幸在演示会议期间和 Andrew 进行了交谈，我很好奇这一系列的成果（过去 15 年中）中哪一个最让他感到惊讶。他的回答是 PTAM 最让他吃惊，因为其表明了实时束调整（real-time bundle adjustment）执行的方式。PTAM 系统本质上是 MonoSLAM++ 系统，但因为采用了一种重量级算法（束调整）而显著提高了跟踪效果并做到了实时——在
2000 年代早期 Andrew 还认为「实时」是不可能办到的。

阅读全文

0 0