学习SLAM需要哪些预备知识？

来源：互联网发布：域名紧急更新编辑：程序博客网时间：2024/04/30 10:43

（本文首发于：学习SLAM需要哪些预备知识？ - 立党的回答）
作者：立党
链接：学习SLAM需要哪些预备知识？ - 立党的回答
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

首先搬出宝典：Multiple View Geometry in Computer Vision。这本书基本涵盖了Vision-based SLAM这个领域的全部理论基础！读多少遍都不算多！另外建议配合Berkeley的课件学习。（更新：这本书书后附录也可以一并读完，包括附带bundle adjustment最基本的levenberg marquardt方法，newton方法等）

只要是SLAM问题就要涉及optimization，就要用到各种least square算法。所以另一个基础理论是Sparse Matrix，这是大型稀疏矩阵处理的一般办法。可以参考Dr. Tim Davis的课件：Tim Davis ，他的主页里有全部的课程视频和Project。针对SLAM问题，最常用的least square算法是Sparse Levenberg Marquardt algorithm，这里有一份开源的代码以及具体实现的paper：Sparse Non-Linear Least Squares in C/C++

然后是框架级的工具。最常用的机器人框架是ROSROS.org | Powering the world's robots，可以使用在Windows，Linux和MacOS等操作系统上，里面包含一整套常用的机器人理论的算法和工具的实现。另一个开源工具集是OpenSLAMOpenSLAM.org，其中的g2o是目前最流行的graph optimization的实现工具。另外OpenCV也是视觉相关必备的基础工具，Multiple View教材中的常用算法在OpenCV中都有常用的实现。（更新：OpenCV的文档Camera Calibration and 3D Reconstruction 中，包含SLAM相关的基础理论公式以及C/C++/Python实现的API）

另外多说一句题外话，因为Optimization和图片的feature extraction是SLAM里最核心的两个问题，而这两个问题都是运算量极大的。好的SLAM框架要兼顾速度和精确度。目前大部分Vision或者RGBD的SLAM框架都是用C++来时实现完成的以确保运算速度。虽然我个人很欣赏Python，并且Python3也支持SciPy，OpenCV，ROS等重要工具，不过依然有大量的诸如g2o等基础性库在python下无法使用，而且如果要借鉴其他人的代码，最方便的还是在C++中实现。所以如果提问者有志于在这个领域做深入研究，夯实的C++基础是必不可少的。Introduction to Algorithms，以及 @vczh 推荐的C++ Primer等，都是在实际工作前要自己做好的功课。

下面说一些硬件和实验上的知识储备。首先Vision-based SLAM常用摄像机标定（Camera Calibration）的世界通用简单方法，是张正友博士（Dr. Zhengyou Zhang，主页Zhengyou Zhang's Home Page）的方法（张正友博士是本领域里少数的具有极其巨大影响力和贡献的华人学者，已成脑残粉嘤嘤嘤）。具体方法和实现，我在这里推荐两个，一个是Caltech工具箱：Camera Calibration Toolbox for Matlab ，以及相关paper：Camera Calibration Toolbox for Matlab。该方法的另一个实现，是Matlab最新版本内置的Camera Calibration的application，自动导入标定图片并把得到的结果输出给Matlab，更加自动化，更加便捷准确。更多的Camera Model理论知识请参考Multiple View Geometry。

至于RGB-D Camera，最常用的采集设备有两种，一种是Microsoft Kinect，一个生态环境完备的RGBD Camera，可以直接用Visual Studio可Kinect SDK直接开发，也有大量开发好的程序以供借鉴参考，也可以用OpenNI和ROS采集处理，我就不多介绍了，毕竟微软是对程序员最友好的公司没有之一（微软大法好）。另一个是Google的Project Tango，Google对于这个自家的神器还是很低调的，可以看看宣传片ATAP Project Tango ，绝对酷炫——可惜我们lab刚刚买的那一台，我还没有用过，所以对具体开发不太了解。

另外有几个网上成熟的数据集和测试方法，一个是Malaga Dataset，一个西班牙的团队采集的Malaga城市数据：The Málaga Stereo and Laser Urban Data Set，覆盖了城市中汽车驾驶的各种情况（停车，加速，减速，行人，建筑，绿化带等），里面提供了双摄像头，Laser，IMU等数据以及GPS的ground truth trajectory。不过该版本因为是在市中心，所以GPS的ground truth并不可靠。另一个是慕尼黑工业大学Computer Vision Lab的RGB-D

dataset https://vision.in.tum.de/data/datasets/rgbd-dataset，里面提供了大量的室内的RGBD数据集，以及非常方便好用的benchmark tools。第三个是KITTI Dataset：The KITTI Vision Benchmark Suite，也是认可度很广泛的汽车驾驶数据集。

作者：立党
链接：https://zhuanlan.zhihu.com/p/21267073
来源：知乎

0 0