实时SLAM的未来及深度学习与SLAM对比

来源：互联网发布：linux vsftpd 启动编辑：程序博客网时间：2024/05/21 08:44

http://blog.csdn.net/gobitan/article/details/51872675

第一部分：为什么SLAM重要

vSALM(Visual SLAM)能够在跟踪摄像机(用于AR的手持或者头盔，或者装备在机器人上)位置和方位的同时构建三维地图. SLAM算法与ConvNets和深度学习是互补的。SLAM关注几何问题，而深度学习主要关注识别问题。如果你想让机器人走到冰箱面前而不撞到墙，就用SLAM。如果你想让机器人识别冰箱里的物品，就用ConvNets。http://openmvg.readthedocs.io/en/latest/

SLAM相当于实时版本的SFM(Structure From Motion)。vSLAM使用摄像机，放弃了昂贵的激光传感器和惯性传感器(IMU)。单目SLAM使用单个相机，而非单目SLAM通常使用预先标定好的固定基线的立体摄像机。SLAM是基于几何方法的计算机视觉的一个主要的例子。事实上，CMU(卡内基梅陇大学)的机器人研究机构划分了两个课程：基于学习方法的视觉和基于几何方法的视觉。

SFM vs vSLAM

SFM和SLAM解决的是相似的问题，但SFM是以传统的离线的方式来实现的。SLAM慢慢地朝着低功耗，实时和单个RGB相机模式发展。下面是一些流行的开源SFM软件库。

Bundler: 一个开源SFM工具箱，http://www.cs.cornell.edu/~snavely/bundler/
Libceres: 一个非线性最小二乘法库(对bundle adjustment问题非常有用)，http://ceres-solver.org/
Andrew Zisserman's多视图几何Matlab函数库，http://www.robots.ox.ac.uk/~vgg/hzbook/code/

vSLAM vs 自动驾驶

自动驾驶汽车是SLAM最重要的一个应用领域。未来很多年里，在自动驾驶领域将持续地研究SLAM。

第二部分：实时SLAM的未来

Andres Davison做了一个非常精彩的关于15年来基于视觉的SLAM的总结。过去10-15年来最典型的几个SLAM系统如下：

MonoSLAM
PTAM
FAB-MAP
DTAM
KinectFusion

Davison vs Horn: 机器人视觉的下一篇

Davision正在写一本新的机器人视觉的书，该书第一版由B.K. Horn1986年出版。另外有两本很优秀的图书值得学习。他们分别是Hartlet等著的<Multiple View Geometry>和Thrun等著的<Probabilistic Robotics>。这两本书可堪称SLAM的经典基础，必读。

参考：Davison的15年来的基于视觉的SLAM的PPT链接地址：http://wp.doc.ic.ac.uk/thefutureofslam/wp-content/uploads/sites/93/2015/12/slides_ajd.pdf

Talk 1: Christian Kerl on Continuous Trajectories in SLAM

Talk 2: Semi-Dense Direct SLAM by Jakob Engel

LSD-SLAM在2014年的ECCV上诞生，是我比较喜欢的一个SLAM系统。LSD_SLAM是Large-Scale Direct Monocular SLAM的缩写。LSD-SLAM对SLAM研究者来说是一个重要的系统，因为它没有使用角点(corners)或者其他任何本地特征(local features)。

原文：LSD-SLAM is an important system for SLAM researchers because it does not use corners or any other local features. Direct tracking is performed by image-to-image alignment using a coarse-to-fine algorithm with a robust Huber loss. This is quite different than the feature-based systems out there. Depth estimation uses an inverse depth parametrization (like many other SLAM systems) and uses a large number or relatively small baseline image pairs. Rather than relying on image features, the algorithms is effectively performing “texture tracking”. Global mapping is performed by creating and solving a pose graph "bundle adjustment" optimization problem, and all of this works in real-time. The method is semi-dense because it only estimates depth at pixels solely near image boundaries. LSD-SLAM output is denser than traditional features, but not fully dense like Kinect-style RGBD SLAM.

LSD-SLAM的扩展包括Omni(全景) LSD-SLAM和Stereo(立体) SLAM。

Talk 3: Sattler on The challenges of Large-Scale Localization and Mapping

Talk 4: Mur-Artal on Feature-based vs Direct-Methods

ORB-SLAM的创建者Raúl Mur-Artal的演讲集中在Feature-based和Direct-methond的争论上。他坚定地站在feature-based这边。ORB-SLAM是一个优秀的开源SLMA系统。

Talk 5: Project Tango and Visual loop-closure for image-2-image constraints

谷歌的Project Tango是世界上首个试图将SLAM商业化的产品。谷歌想将SLAM能力纳入到下一代Android设备上。

Talk 6: ElasticFusion is DenseSLAM without a pose-graph

ElasticFusion是一个稠密SLAM技术，它需要类似Kinect的RGBD传感器。

Talk 7: Richard Newcombe’s DynamicFusion

Richard Newcombe是最后一个演讲者，他创办的公司最近被Oculus收购了。看到DTAM，KinectFusion和DynamicFusion背后的人如今投入到VR领域，这真是一件很酷的事。

第三部分：深度学习 vs SLAM

SLAM讨论组非常有意思。在我们进入深度学习与SLAM的重要性讨论之前，我应该提到每个讨论组的演讲者都认为：语义(semantics)对于构建一个更大，更好的SLAM系统是非常必要的。

集成语义信息进入SLAM

结束语

今天的SLAM系统帮助机器从几何的角度来理解现实世界，而深度学习则帮助机器进行合理地分类。最后与大家分享一下Newcombe和Davision在视觉SLAM中的令人兴奋的事：基于视觉的算法即将把AR/VR变成数十亿美金的市场。然而，我们不应该忘记密切关注一个万亿美金的市场，那就是机器人。SLAM机器人的时代即将到来。

以上笔记仅供学习参考，由于本人的SLAM基础尚不扎实，理解难免有偏差。要想全面理解作者的文章，请阅读原文：http://www.computervisionblog.com/2016/01/why-slam-matters-future-of-real-time.html

1 0