摄像头立体成像资料记录--SLAM和MonoSLAM

来源：互联网发布：05~06赛季科比数据编辑：程序博客网时间：2024/06/05 18:07

SFM和vSLAM基本讨论的是同一问题，不过SFM是vision方向的叫法，而vSLAM是robotics方向的叫法，vSLAM所谓的mapping，我们vision方向叫structure，vSLAM所谓的location，我们vision方向叫camera pose。但是从出发点考虑的话，SFM主要是要完成3D reconstuction，而vSLAM主要是要完成localization。从方法论的角度上考虑的话，传统的SFM是不要求prediction的，但是对于vSLAM而言prediction是必须的，因为vSLAM的终极目标是要real-time navigation，而对于传统SFM而言，real-time是不要求的。而传统的vSLAM也把主要精力放在prediction上面，而且是借助非camera的外界的手段来predict，例如acceleration sensor。而传统SFM则把精力放在feature tracking上面了。直到最近，SFM开始利用图片间的optical flow做prediction，而vSLAM则更加的注重了feature tracking。所以就目前而言两个领域似有大融和趋势。。。

MonoSLAM的概念来自于SLAM（wiki），是Robotics中的一种定位算法，全称是Simultaneous Localization and Mapping。

让机器人知道自己在那里（Localization），可以用GPS，但是误差有点大（5米左右？），而且还必须在室外。怎么才能让机器人在室内，或者更精确地知道自己的位置呢？SLAM就是一种方法。

基本的想法是，如果我是一个机器人，我知道两个定点1：(x1,y1)和定点2：(x2,y2)，我现在可以看见定点1，测量一下，离它5米，把头向右转过30度角后，可以看见离定点2，测量一下，离它10米。然后解一个三角形，我就知道自己在那里了（Localization），位置准确度和测量精度有关（转角，距离），通常可以控制在很小。

但是问题又来了，每次我走几步，就得回头看看定点1和定点2，才知道自己在哪里。这一步三回头的走法，真是一件非常二的事情。于是聪明勤劳勇敢的博士生们想出来一个方法，在第一步的时候，一旦我知道自己在哪里，我就添加几个定点：定点3，定点4，定点5……。因为知道自己的坐标，我可以测量出这些新定点离我多远，加上自己的坐标，就知道这些定点在哪里（Mapping）。以后的定位(Localization)就可以用这些新定点。多了这些定点后，以后再走路，哇身边都是定点，腰不酸腿不疼，知道自己在哪里了。

所以SLAM就是指，同时（Simultaneous）知道自己的位置（Localization）和（And…）新的定点的位置（(feature) Mapping）。因为不管是测量距离，还是计算自己的转角，或记录行走的距离（利用Odometer）都会有noise，而直接计算SLAM，noise会叠加。所以一般SLAM要有一个Kalman Filter的过程。ICRA 10的一篇文章就讨论了为什么需要Filter. (ICRA 10: Why Filter?) .如果对SLAM还有兴趣，可以看看这个Oxford的Summer School。

而MonoSLAM，是Andrew Davison提出来的利用一个摄像头来做SLAM的方法，也叫Real-Time Structure From Motion。在这里，定点变成了visual feature，测量定点的位置转变为match feature, then triangulate. 一个2004年的demo 。当摄像头在空间里忘乎所以地移动时，MonoSLAM都可以利用feature matching，知道摄像头的位置，和那些feature的位置。demo中的右图的黄线，是camera的trajectory。而椭圆表示对于新加的feature的不确定性。paper

可以看到在demo中，虽然知道摄像头的位置，但是mapping的feature很少很稀疏，这样不好不强大。经过了6年，随着CPU,GPU越来越可怕，人民生活越来越幸福，Andrew Davison这个组终于在CVPR 10搞出了dense live MonoSLAM：利用GPU计算PTAM，然后Mesh成Surfeace。请看demo。有点长，请耐心，最后的小车的激情一跃很精彩。project page

SLAM和MonoSLAM在网上都有很多现成的code。像MRPT （跨平台），Andrew Davison的SceneLib（Linux），还有C#版本的。

Davison在ICCV 2011上搞出了DTAM，不基于features这次人家，直接dense every pixel了；而Pollefeys更是在ICCV 2013上搞出了Live Metric 3D Reconstruction on Mobile Phones，基于PTAM的mapping和tracking，前面结合了visual-inertial信息，后面3d modeling。

怎么破！

0 0