SLAM论文阅读笔记

[1]陈卫东, 张飞. 移动机器人的同步自定位与地图创建研究进展[J]. 控制理论与应用, 2005, 22(3):455-460.

[2]Cadena C, Carlone L, Carrillo H, et al. Past, Present, and Future of Simultaneous Localization and Mapping: Toward the Robust-Perception Age[J]. IEEE Transactions on Robotics, 2016, 32(6):1309-1332.    (综述)

[3]Birk A, Pfingsthorn M. Simultaneous Localization and Mapping (SLAM)[M]// Wiley Encyclopedia of Electrical and Electronics Engineering. John Wiley & Sons, Inc. 2016.

[4]Choset H, Nagatani K. Topological simultaneous localization and mapping (SLAM): toward exact localization without explicit localization[J]. Robotics & Automation IEEE Transactions on, 2001, 17(2):125-137.

[5]许亚朝, 何秋生, 王少江,等. 一种改进的自适应卡尔曼滤波算法[J]. 太原科技大学学报, 2016, 37(3):163-168.

[6]Martinez-Cantin R, Castellanos J A. Unscented SLAM for large-scale outdoor environments[C]// Ieee/rsj International Conference on Intelligent Robots and Systems. IEEE, 2005:3427-3432.   (引:142)

[7]Chekhlov D, Pupilli M, Mayol-Cuevas W, et al. Real-Time and Robust Monocular SLAM Using Predictive Multi-resolution Descriptors.[C]// International Symposium on Visual Computing. 2006:276-285.  (引:142)

[8]Holmes S, Klein G, Murray D W. A Square Root Unscented Kalman Filter for visual monoSLAM[C]// IEEE International Conference on Robotics and Automation. IEEE, 2008:3710-3716.  (引:65)

[10]Sim R, Elinas P, Griffin M. Vision-based SLAM using the Rao-Blackwellised particle filter[J]. Ijcai Workshop on Reasoning with Uncertainty in Robotics, 2005, 9(4):500-509.  (引:232)

[11]Li M, Hong B, Cai Z, et al. Novel Rao-Blackwellized Particle Filter for Mobile Robot SLAM Using Monocular Vision[J]. International Journal of Intelligent Technology, 2008(1):63--69. (引:5)

[12]Klein G, Murray D. Parallel Tracking and Mapping for Small AR Workspaces[C]// IEEE and ACM International Symposium on Mixed and Augmented Reality. IEEE, 2008:1-10. (引:1927)

[13]Klein G, Murray D. Improving the Agility of Keyframe-Based SLAM[C]// European Conference on Computer Vision. Springer-Verlag, 2008:802-815. (引:290)

[14]Mur-Artal R, Tardós J D. Fast relocalisation and loop closing in keyframe-based SLAM[C]// IEEE International Conference on Robotics and Automation. IEEE, 2014:846-853. (引:28)

[15]Mur-Artal R, Montiel J M M, Tardós J D. ORB-SLAM: A Versatile and Accurate Monocular SLAM System[J]. IEEE Transactions on Robotics, 2015, 31(5):1147-1163.  (引:145)

[16]Henry P, Krainin M, Herbst E, et al. RGB-D mapping: Using depth cameras for dense 3-D modeling of indoor environments[M]//KHATIB O, KUMAR V, PAPPAS G J. Experimental Robotics. Berlin Heidelberg: Springer, 2014: 647-663.

最早提出使用RGBD相机对室内环境进行三维重建的方法,在彩色图像中提取SIFT特征并在深度图像上查找相应的深度信息。然后使用RANSAC方法对3D特征点进行匹配并计算出相应的刚体运动变换,再以此作为ICP(iterative closest point)的初始值来求出更精确的位姿。RGBD SLAM通常使用ICP算法来进行位姿估计。其基本流程为:

[17]Henry P, Krainin M, Herbst E, et al. RGB-D mapping: Using Kinect-style depth cameras for dense 3D modeling of indoor environments[M]// Experimental Robotics. Springer Berlin Heidelberg, 2014:647-663.  (引:435)

与文献[16]类似,不同点在于对彩色图像进行的是SURF特征提取,并用ICP对运动变换进行优化后,最后使用Hogman位姿图优化方法求出全局最优位姿。

[18]Jan Stühmer, Gumhold S, Cremers D. Real-time dense geometry from a handheld camera[C]// Dagm Conference on Pattern Recognition. Springer-Verlag, 2010:11-20.(引:123)

文献18的相机定位方法依赖图像的每个像素点,即用稠密的图像对准来进行自身定位并构建稠密的3-D地图。

[19]Engel J, Sturm J, Cremers D. Semi-dense Visual Odometry for a Monocular Camera[C]// IEEE International Conference on Computer Vision. IEEE Computer Society, 2013:1449-1456.  (引:125)

文献19对当前图像构建半稠密inverse深度地图,并使用稠密图像配准(dense image alignment)法计算相机位姿。构建半稠密地图即估计图像中梯度较大的所有像素的深度值,该深度值被表示为高斯分布,且当新的图像到来时,该深度值被更新。

[20]Newcombe R A, Lovegrove S J, Davison A J. DTAM: Dense tracking and mapping in real-time[C]// IEEE International Conference on Computer Vision. IEEE, 2012:2320-2327.  (引:545)

文献20对每个像素点进行概率的深度测量,有效降低了位姿估计的不确定性。

[21]Forster C, Pizzoli M, Scaramuzza D. SVO: Fast semi-direct monocular visual odometry[C]// IEEE International Conference on Robotics and Automation. IEEE, 2014:15-22. (引:215)

提出了一种半直接的单目视觉里程计方法,该方法相比于直接法不是对整幅图像进行直接匹配从而获得相机位姿,而是通过在整幅图像中提取的图像块来进行位姿的获取,这样能够增强算法的鲁棒性。

[22]Engel J, Sch?ps T, Cremers D. LSD-SLAM: Large-Scale Direct Monocular SLAM[M]// Computer Vision – ECCV 2014. Springer International Publishing, 2014:834-849. (引:257)

提出了LSD-SLAM算法(large-scale direct SLAM),相比之前的直接的视觉里程计方法,该方法在估计高准确性的相机位姿的同时能够创建大规模的三维环境地图。

[23]Newcombe R A, Izadi S, Hilliges O, et al. KinectFusion: Real-time dense surface mapping and tracking[C]// IEEE International Symposium on Mixed and Augmented Reality. IEEE Computer Society, 2011:127-136.(引:1345)

提出了Kinect融合算法,该方法通过Kinect获取的深度图像对每帧图像中的每个像素进行最小化距离测量而获得相机位姿,且融合所有深度图像,从而获得全局地图信息。

[24]Gokhool T, Meilland M, Rives P, et al. A dense map building approach from spherical RGBD images[C]// International Conference on Computer Vision Theory and Applications. IEEE, 2014:656-663. (引:5)

使用图像像素点的光度信息和几何信息来构造误差函数,通过最小化误差函数而获得相机位姿,且地图问题被处理为位姿图表示。

[25]Kerl C, Sturm J, Cremers D. Dense visual SLAM for RGB-D cameras[C]// Ieee/rsj International Conference on Intelligent Robots and Systems. IEEE, 2014:2100-2106. (引:138)

是较好的直接RGB-D SLAM方法,该方法结合像素点的强度误差与深度误差作为误差函数,通过最小化代价函数,从而求出最优相机位姿,该过程由g2o实现,并提出了基于熵的关键帧提取及闭环检测方法,从而大大降低路径误差。

[26]Lowe D G. Distinctive Image Features from Scale-Invariant Keypoints[M]. Kluwer Academic Publishers, 2004.  (引:3.6万)

[27]Bay H, Tuytelaars T, Gool L V. SURF: Speeded Up Robust Features[M]// Computer Vision-ECCV 2006. Springer Berlin Heidelberg, 2006:404-417.(引:9931)

[28]Rublee E, Rabaud V, Konolige K, et al. ORB: An efficient alternative to SIFT or SURF[C]// IEEE International Conference on Computer Vision. IEEE, 2012:2564-2571.(引:1892)

[29]Eade E, Drummond T. Edge landmarks in monocular SLAM[J]. Image & Vision Computing, 2009, 27(5):588-596. (引:126)

[30]Klein G, Murray D. Improving the Agility of Keyframe-Based SLAM[C]// European Conference on Computer Vision. Springer-Verlag, 2008:802-815. (引:290)

[31]Concha A, Civera J. Using superpixels in monocular SLAM[C]// IEEE International Conference on Robotics and Automation. IEEE, 2014:365-372. (引:19)

[32]Williams B, Cummins M, Neira J, et al. A comparison of loop closing techniques in monocular SLAM[J]. Robotics & Autonomous Systems, 2009, 57(12):1188-1197.(引:139)

文献32对闭环检测方法进行了比较,且得出图像对图像[33,34]的匹配性能由于地图对地图[35],图像对地图[36]的匹配方法。

[33]Mur-Artal R, Tard贸s J D. ORB-SLAM: Tracking and Mapping Recognizable Features[C]// The Workshop on Multi View Geometry in Robotics. 2014.

[34]]Cummins M J, Newman P M. Accelerated appearance-only SLAM[C] / /IEEE International Conference on Robotics and Automation,2008:1828- 1833.

[35]Burgard W, Brock O, Stachniss C. Mapping Large Loops with a Single Hand-Held Camera[C]// Robotics: Science & Systems Iii, June, Georgia Institute of Technology, Atlanta, Georgia, Usa. DBLP, 2007:297-304.  (引:282)

[36]Cummins M, Newman P. FAB-MAP: Probabilistic Localization and Mapping in the Space of Appearance[J]. International Journal of Robotics Research, 2008, 27(6):647-665.(引:737)

[37]Nister D, Stewenius H. Scalable Recognition with a Vocabulary Tree[C]// IEEE Computer Society Conference on Computer Vision and Pattern Recognition. IEEE Computer Society, 2006:2161-2168.  (引:3605)

[9]权美香, 朴松昊, 李国. 视觉SLAM综述[J]. 智能系统学报, 2016, 11(6):768-776.

QUAN Meixiang, PIAO Songhao, LI Guo. An overview of visual SLAM[J]. CAAI transactions on intelligent systems, 2016, 11(6): 768-776.

内容:基于特征的视觉SLAM方法、直接的SLAM方法、SIFT,SURF,ORB特征的检测与匹配、关键帧选择方法、对消除累积误差的闭环检测及地图优化的方法。

根据采用的视觉传感器的不同,可将视觉SLAM分为:单目视觉SLAM;立体视觉SLAM中的双目视觉SLAM;基于单目相机与红外传感器结合构成的RGB-D SLAM

基于特征的视觉SLAM方法:指的是对输入的图像进行特征点检测及提取,并基于2-D或3-D的特征匹配计算相机的位姿及对环境进行建图。

早期的单目视觉SLAM的实现是借助于滤波器实现的。

1.利用扩展卡尔曼滤波器(extended Kalman filter, EKF)实现同时定位与地图创建,主要思想是使用状态向量来存储相机位姿及地图点的三维坐标,利用概率密度函数来表示不确定性,从观测模型和递归的计算,最终获得更新的状态向量

的均值和方差。

2.为了解决计算复杂度及线性化带来的不确定性问题,针对单目视觉的SLAM文献[6,7,8]引入了无迹卡尔曼滤波器(Unscented Kalman filter, UKF)或改进的UKF,虽然改善了不确定性的问题,但增加了计算复杂度。

3.文献[10,11]利用Rao-Blackwellized粒子滤波(Particle filter)实现单目视觉SLAM,此方法避免了线性化且对相机的快速运动有一定的弹力,但为了保证定位精度,则需要使用较多的粒子,从而大大提高了计算复杂度。

4.基于关键帧的单目视觉SLAM[12,13,14,15],其中最具有代表性的是parallel tracking and mapping(PTAM)[12],该论文提出了一个简单、有效的提取关键帧的方法,且将定位和创建地图分为两个独立的任务,并在两个线程上进行。文献[15]是在关键帧的基础上提出的一个单目视觉SLAM系统,将整个SLAM过程分为定位、创建地图、闭环3个线程,且对这3个任务使用相同的ORB特征,并引进本质图的概念来加速闭环校正的过程。

5.微软推出的Kinect相机能够同时获取图像信息和深度信息,从而简化了三维重建过程,使得基于RGB-D SLAM得到了迅速发展。

直接的SLAM方法:指的是直接对像素点的强度进行操作,避免了特征点的提取,该方法能够使用图像的所有信息[18,19,20,21,22,23,24,25]。

视觉SLAM的主要标志性成果:

看论文

SLAM的主要研究实验室:

1.苏黎世联邦理工学院的Autonomous System Lab,该实验室在tango项目上与谷歌合作,负责视觉惯导的里程计,基于视觉的定位和深度重建算法。

2.明尼苏达大学的Multiple Autonomous Robotic Systems Laboratory,主要研究四轴飞行器导航,合作建图,基于地图的定位,半稠密地图创建等。

3.慕尼黑理工大学的The Computer Vision Group,主要研究基于图像的3-D重建,机器人视觉,视觉SLAM等。

SLAM的关键性问题:

1.特征检测与匹配 

目前使用最多的是点特征:SIFT(Scale invariant feature transform)[26]特征,SURF(Speeded up robust features)[27]特征和ORB(oriented fast and rotated BRIEF)[28]特征。

SIFT特征具有可辨识性,由于其描述符用高维向量(128维)表示,且具有旋转不变性、尺度不变性、放射不变性,对噪声和光照变化也有鲁棒性,在视觉SLAM使用了SIFT特征,但是由于SIFT特征的向量维数太高,导致时间复杂度高。

SURF特征具有尺度不变性、旋转不变性,且相对于SIFT特征的算法速度提高了3到7倍。对两幅图像的SIFT和SURF特征进行匹配时通常是计算两个特征向量之间的欧氏距离,并以此作为特征特征点的相似性判断度量。

ORB特征是FAST特征检测算子与BRIEF描述符的结合,并在其基础上做了改进。ORB特征最大的优点是计算速度快,是SIFT的100倍,SURF的10倍,其原因是FAST特征检测速度就很快,再加上BRIEF描述符是二进制串,大大缩减了匹配速度,并且具有旋转不变性但不具有尺度不变性。ORB特征匹配是以BRIEF二进制描述符的汉明距离为相似性度量的。

但对于包含大量直线和曲线的环境下,使用点特征环境中的很多信息会被丢失,所以提出了基于边特征的视觉SLAM[29,30]和基于区域特征的视觉SLAM[31]。

2.关键帧的选择

帧对帧的对准方法会造成大的累积漂浮,由于位姿估计过程中总会产生误差。为了减少帧对帧的对准方法带来的误差,基于关键帧的SLAM[12-16,25,]方法被提出。

文献[10,13]里当满足一下全部条件时该帧作为关键帧插入到地图里:从上一个关键帧经过了n个帧;当前帧至少能看到n个地图点,位姿估计准确性较高。

3.闭环检测(loop closing)方法

闭环检测及位置识别,判断当前位置是否是以前已访问过的环境区域。三维重建过程中必然会产生误差累积,实现闭环是消除的一种手段。在位置识别算法中,视觉是主要的传感器。文献32对闭环检测方法进行了比较,且得出图像对图像[33,34]的匹配性能由于地图对地图[35],图像对地图[36]的匹配方法。

图像对图像的匹配方法中,词袋(bag of words)方法由于其有效性的到了广泛应用。词袋指的是使用视觉词典树(visual vocabulary tree)将一幅图像的内容转换为数字向量的技术。对训练图像进行特征提取,并将其特征描述符空间通过K中心点聚类(K medians clustering)方法离散化为个簇,由此,词典树的第一节点层被创建。下面的层通过对每个簇重复执行这个操作而获得,直到共获得层。最终获得W个叶子节点,即视觉词汇。每层到每层的K中心聚类过程如图所示[36]。

4.地图优化:

闭环检测成功后,往地图里添加闭环约束,执行闭环校正。闭环问题可以描述为大规模的光束平差法(bundle adjustment)问题,即对相机位姿及所有的地图点3D坐标进行优化,但是该优化算法复杂度太高,从而很难实现实时。

一种可执行方法为通过位姿图优化(pose graph optimization)方法来对闭环进行优化,顶点为相机位姿,边表示位姿之间相对变换的图称为位姿图,位姿图优化即将闭环误差沿着图进行分配,即均匀分配到图上的所有位姿上。图优化通常由图优化框架g2o(general graph optimization)[38]里的LM(levenberg-marquardt)算法实现。

[38]Kümmerle R, Grisetti G, Strasdat H, et al. G2o: A general framework for graph optimization[C]// IEEE International Conference on Robotics and Automation. IEEE, 2011:e43478.

5.视觉SLAM主要发展趋势及研究热点

5.1 多传感器融合

相机能够捕捉场景的丰富细节,而惯性测量单元(inertial measurement unit, IMU)有高的帧率且相对小的能够获得准确的短时间估计,这两个传感器能够相互互补,从而一起使用能够获得更好的结果。

最初的视觉与IMU结合的位姿估计是用滤波方法解决的,用IMU的测量值作为预测值,视觉的测量值用于更新。

许多结果都已证明在准确性上基于优化的视觉SLAM优于基于滤波的SLAM方法。

5.2 SLAM与深度学习结合

随着深度学习在计算机视觉领域的大成功,大家对深度学习在机器人领域的应用有很大的兴趣。SLAM是一个大系统,里面有很多子模块,例如闭环检测,立体匹配等,都可通过深度学习的使用来获得更优的结果。

1.基于深度学习的立体匹配方法——卷积神经网络

2.整合全局敏感散列法和新的语义搜寻空间划分的优化技术——卷积神经

3.卷积神经网络学习视觉里程计的最佳视觉特征和最优的估计器

4.重定位系统——贝叶斯卷积神经网络

6.视觉SLAM的优缺点

6.1单目视觉SLAM的优缺点

单目相机应用灵活、简单、价格低。但是,单目视觉SLAM在每个时刻只能获取一张图像,且只能依靠获得的图像数据计算环境物体的方向信息,无法直接获得可靠的深度信息,从而初始地图创建及特征点的深度恢复都比较困难。此外,尺度不确定性是单目SLAM的主要特点,它是主要的误差源之一,但是正是尺度不确定性才使得单目SLAM能够在大尺度和小尺度环境之间进行自由转换。

6.2 双目视觉SLAM的优缺点

双目视觉SLAM利用外极线几何约束的原理去匹配左右两个相机的特征,从而能够在当前帧速率的条件下直接提取完整的特征数据,因而应用比较广泛,它直接解决了系统地图特征的初始化问题。但是系统设计比较复杂,系统成本比较高,且它的视角范围受到一定限制,不能够获取远处的场景,从而只能在一定的尺度范围内进行可靠的测量,从而缺乏灵活性。

6.3 RGBD SLAM的优缺点

深度相机在获得彩色图像的同时获得深度图像,从而方便获得深度信息,且能够获得稠密的地图,但是成本高,体积大,有效探测距离太短,从而可应用环境很有限。

[39]王希彬, 赵国荣, 潘爽. 无人机视觉同时定位与地图创建技术综述[C]// 中国自动化学会控制理论专业委员会C卷. 2011.

对无人机视觉SLAM当前面临的挑战做了详述,建立了状态方程和测量方程,并对视觉SLAM的地标初始化技术进行了详细归纳,总结了EKF、SEIF和FASTSLAM三种滤波方法在SLAM中的应用研究状况,

时间: 2024-10-10 13:57:54

SLAM论文阅读笔记的相关文章

Google File System 论文阅读笔记

核心目标:Google File System是一个面向密集应用的,可伸缩的大规模分布式文件系统.GFS运行在廉价的设备上,提供给了灾难冗余的能力,为大量客户机提供了高性能的服务. 1.一系列前提 GFS的系统构建针对其自身使用的特点在传统的分布式系统的基础上又进行了一些创新,基于的前提假设主要包括以下方面: 1.由于系统由廉价的商用机构成,组件失效被认为是一种常态,系统必须可以持续监控自身的状态. 2.系统存储以大文件为主,小文件也支持,但是没有进行特别的优化处理. 3.系统的工作负载主要包含

深度学习论文阅读笔记--Deep Learning Face Representation from Predicting 10,000 Classes

来自:CVPR 2014   作者:Yi Sun ,Xiaogang Wang,Xiaoao Tang 题目:Deep Learning Face Representation from Predicting 10,000 Classes 主要内容:通过深度学习来进行图像高级特征表示(DeepID),进而进行人脸的分类. 优点:在人脸验证上面做,可以很好的扩展到其他的应用,并且夸数据库有效性:在数据库中的类别越多时,其泛化能力越强,特征比较少,不像其他特征好几K甚至上M,好的泛化能力+不过拟合于

Apache Spark源码走读之1 -- Spark论文阅读笔记

转自:http://www.cnblogs.com/hseagle/p/3664933.html 楔子 源码阅读是一件非常容易的事,也是一件非常难的事.容易的是代码就在那里,一打开就可以看到.难的是要通过代码明白作者当初为什么要这样设计,设计之初要解决的主要问题是什么. 在对Spark的源码进行具体的走读之前,如果想要快速对Spark的有一个整体性的认识,阅读Matei Zaharia做的Spark论文是一个非常不错的选择. 在阅读该论文的基础之上,再结合Spark作者在2012 Develop

论文阅读笔记:Fully Convolutional Networks for Semantic Segmentation

这是CVPR 2015拿到best paper候选的论文. 论文下载地址:Fully Convolutional Networks for Semantic Segmentation 尊重原创,转载请注明:http://blog.csdn.net/tangwei2014 1.概览&主要贡献 提出了一种end-to-end的做semantic segmentation的方法,简称FCN. 如下图所示,直接拿segmentation 的 ground truth作为监督信息,训练一个端到端的网络,让

论文阅读笔记--Selective Search for Object Recognition

Selective Search for Object Recognition [email protected] 作者: J. R. R. Uijlings, K. E. A. van de Sande, T. Gevers, A. W. M. Smeulders. 引用: Uijlings, Jasper RR, et al. "Selective search for object recognition." International journal of computer v

论文阅读笔记——End-to-end Learning of Action Detection from Frame Glimpses in Videos

论文题目:End-to-end Learning of Action Detection from Frame Glimpses in Videos 出处:arXiv,目前尚未有正式出版 作者及单位: Serena Yeung1, Olga Russakovsky1,2, Greg Mori3, Li Fei-Fei1 1Stanford University, 2Carnegie Mellon University, 3Simon Fraser University 相关工作:视频中的行为检测

关键字抽取论文阅读笔记

刘知远老师博士论文-基于文档主题结构的关键词抽取方法研究 一.研究背景和论文工作介绍 关键词抽取分为两步:选取候选关键词和从候选集合中推荐关键词. 1.1. 选取候选关键词 关键词:单个词或者多个单词组成的短语. 抽取难点:如何正确判定候选关键词的边界.(在英文关键词抽取中,一般选N元词串,计算N元词串内部联系的紧密程度来判断是否是一个有独立语义的短语.类比搭配抽取.多词表达抽取任务) 1.2. 推荐关键词 得到候选关键词集合后,两种途径解决关键词选取问题. (1)无监督的方法 利用统计特性(e

Linux根文件系统裁剪 论文阅读笔记

Linux裁剪方法研究 2006 2 Linux裁剪原理: 2 Linux嵌入式系统根文件系统的选择与制作 2006 3 Linux嵌入式系统根文件系统的选择与制作 2006 3 基于ARM的嵌入式Linux操作系统移植的研究 2006 5 基于ARM的嵌入式文件系统研究与设计 2010 6 基于嵌入式Linux的Ext2根文件系统制作分析 2015 6 嵌入式Linux裁剪研究 2009 7 嵌入式Linux根文件系统的构建与分析 2015 8 嵌入式Linux共享库裁剪技术分析与改进 200

跨语言论文阅读笔记———第一篇

Cross-lingual Transfer of Named Entity Recognizerswithout Parallel Corpora 1.布朗聚类: 布朗聚类是一种针对词汇的聚类方法,Input是一系列的文章或者句子,Output有两种: 第一种是:一系列的词组,具体多少个类看你之前的设定: 第二种是:每个词都有一长串的二进制码,用类似霍夫曼编码的方式对每个词进行编码 可以显而易见的是,前缀相似度更高的词就越相近 什么样的词汇相似呢?一个直觉的想法就是:相似的词出现在相似的位置.