视觉SLAM算法框架解析(1) PTAM

  版权声明:本文为博主原创文章,未经博主允许不得转载。

  本系列文章旨在总结主流视觉SLAM算法的框架,对比各个算法在子模块的差异,最终提炼出融合各个算法优点的架构。

  PTAM[1]是视觉SLAM领域里程碑式的项目。在此之前,MonoSLAM[2]为代表的基于卡尔曼滤波的算法架构是主流,它用单个线程逐帧更新相机位置姿态和地图。地图更新的计算复杂度很高,为了做到实时处理(30Hz),MonoSLAM每帧图片只能用滤波的方法处理约10~12个最稳定的特征点。PTAM最大的贡献是提出了tracking、mapping双线程的架构,tracking线程只需要逐帧更新相机位置姿态,可以很容易实现实时计算;而mapping线程并不需要逐帧更新,有更长的处理时间,原来只能用在离线SfM(Structure from Motion)的BA(Bundle Adjustment)也可以用起来。这种基于优化的算法比滤波法在单位计算时间可以得到更高的精度[3]。这种多线程的处理方式也更顺应现代CPU的发展趋势。之后的视觉SLAM算法几乎全部沿用了这一思想。

  在tracking线程,地图(由地图点和关键帧组成)是已知且固定的。对图片构造金字塔的目的有两个:1)加快匹配;2)提高地图点相对于相机远近变化时的鲁棒性。FAST是常用的特征点,优点是快,缺点是不鲁棒。通常会先提取出大量的(成百上千个)FAST特征,然后用各种约束剔除误匹配。基于运动模型(PTAM选用减速模型,一般匀速模型更常见)假定当前帧的初始位置姿态,把地图点投影到当前帧,建立起当前帧和关键帧(每个地图点会关联第一次观察到它的关键帧)的联系。随后在匹配点附近找一块小区域(这就是所谓的patch),通过比较当前帧和关键帧的patch的相似度(计算SSD),可以剔除误匹配。为了去除观测位置姿态不同的影响,会在匹配前对patch做仿射变换,直观的解释是:正方形从另一个角度看是平行四边形。Patch匹配的另一个用处是提高匹配点的精度,可以用插值得到亚像素级别的坐标,这对于金字塔高层图片上的匹配点帮助很大。找到一系列匹配点之后,就可以优化求解当前帧的位置姿态,优化通常是在李群求解。PTAM为了加速计算,设计了从粗到细两轮求解过程,粗测阶段只考虑金字塔最高层图片上的少量匹配点(50个),优化出的位置姿态作为精测阶段的初值,精测阶段会纳入更多匹配点(1000个)和金字塔所有层。从粗到细两轮求解的缺点是会增加抖动(jitter),改进的办法是在接近静止的状态下跳过粗测直接进入精测阶段。PTAM用三个级别评判tracking质量:好、不好、丢失。只会在“好”的状态下插入新关键帧和地图点,如果“丢失”,会有简单的重定位功能(在所有关键帧中找相似的)。

  在mapping线程,优化对象是地图点位置和关键帧位置姿态,不再考虑当前帧的位置姿态。先利用两帧图片初始化,具体方法是先五点法加RANSAC求出初值,然后所有匹配点(约1000个)BA优化。由于是单目,所以尺度是未知的,当做常数固定下来。首先从以下几个角度判断当前帧是否是关键帧:1)tracking效果好;2)距离上一个关键帧至少20帧图片;3)距离最近的地图点大于一个阈值,这是为了保证baseline足够大。如果当前帧不是关键帧,则做BA优化。PTAM把BA优化分为局部和全局两部分,这和tracking线程从粗到细两轮求解是一个思路,都是为了降低计算复杂度,加速求解。在局部BA阶段,只考虑滑动窗内的关键帧(5帧),以及它们能观测到的所有地图点。额外的约束是能观测到这些地图点的其他关键帧,这些关键帧固定不动,并不是优化对象。全局BA阶段,优化对象纳入所有的关键帧和地图点。在闲暇时间mapping线程可以利用旧的关键帧改善地图,要么从旧的关键帧观察新添加的地图点,要么重新测量之前被剔除的外点,如果被成功观测并收敛,则作为新的地图点插入地图。如果当前帧是关键帧,则做两件事情:1)把所有地图点投影到这个新的关键帧(tracking线程处于计算量的考虑只投影了一部分地图点),为之后的BA做准备;2)生成新的地图点,会对新关键帧的特征点做非极大值抑制,并筛选出最显著(Shi-Tomasi分数)的一批特征点,然后在最近的关键帧上沿极线搜索匹配点,只要能找到匹配点,就三角化出地图点。

参考文献:

[1] Klein G, Murray D. Parallel tracking and mapping for small AR workspaces[C]//Mixed and Augmented Reality, 2007. ISMAR 2007. 6th IEEE and ACM International Symposium on. IEEE, 2007: 225-234.

[2] Davison A J, Reid I D, Molton N D, et al. MonoSLAM: Real-time single camera SLAM[J]. IEEE transactions on pattern analysis and machine intelligence, 2007, 29(6): 1052-1067.

[3] Strasdat H, Montiel J M M, Davison A J. Real-time monocular SLAM: Why filter?[C]//Robotics and Automation (ICRA), 2010 IEEE International Conference on. IEEE, 2010: 2657-2664.

原文地址:https://www.cnblogs.com/zonghaochen/p/8442699.html

时间: 2024-10-06 12:19:04

视觉SLAM算法框架解析(1) PTAM的相关文章

视觉SLAM算法框架解析(3) SVO

版权声明:本文为博主原创文章,未经博主允许不得转载. SVO(Semi-direct Visual Odometry)[1]顾名思义是一套视觉里程计(VO)算法.相比于ORB-SLAM,它省去了回环检测和重定位的功能,不追求建立.维护一个全局地图,更看重tracking的效果,追求高计算速度.低CPU占用率,所以SVO非常适合在计算资源有限的移动设备上使用.SVO对PTAM的改进主要在两个方面:1)高效的特征匹配:2)鲁棒的深度滤波器.SVO比PTAM.ORB-SLAM计算速度快很多的最主要原因

视觉SLAM算法框架解析(2) ORB-SLAM

版权声明:本文为博主原创文章,未经博主允许不得转载. ORB-SLAM[1]完全继承了PTAM(http://www.cnblogs.com/zonghaochen/p/8442699.html)的衣钵,并做出了两点巨大改进:1)实时回环检测:2)很鲁棒的重定位.为了实现这两点改进,ORB-SLAM把PTAM的mapping线程基于局部BA和全局BA拆分成了local mapping和loop closing两个线程,用ORB描述子替换了patch匹配,并且设计了非常优秀的地图管理策略. 在tr

经典视觉SLAM框架

引言:通过前面的推送我们已经对SLAM有了个大体的认识.(初识视觉SLAM)下面来看经典的视觉SLAM框架,了解一下视觉SLAM究竟由哪几个模块组成.本文选自<视觉SLAM十四讲:从理论到实践>. 整体视觉SLAM流程图. 整个视觉SLAM流程包括以下步骤. 传感器信息读取.在视觉SLAM中主要为相机图像信息的读取和预处理.如果是在机器人中,还可能有码盘.惯性传感器等信息的读取和同步. 视觉里程计(Visual Odometry,VO).视觉里程计的任务是估算相邻图像间相机的运动,以及局部地图

视觉SLAM之RANSAC算法用于消除图像误匹配的原理

在基于特征点的视觉SLAM中,通常情况下,在特征匹配过程中往往会存在误匹配信息,使得计算获取的位姿精度低,易产生位姿估计失败的问题,因此,剔除这些错配点有很大的必要性.常会用到RANSAC算法进行消除两两匹配图像的误匹配点,如果只停留在应用的层面上很简单,直接调用opencv函数就行,看到效果时,感觉好神奇,到底怎么实现的啊,以前一直也没弄太明白,与图像结合的博客也比较少,在查阅了一些资料后,笔者似乎明白了一点,希望笔者的总结会对您的理解有帮助. 首先先介绍一下RANSAC算法(RANdom S

视觉SLAM之词袋(bag of words) 模型与K-means聚类算法浅析(1)

在目前实际的视觉SLAM中,闭环检测多采用DBOW2模型https://github.com/dorian3d/DBoW2,而bag of words 又运用了数据挖掘的K-means聚类算法,笔者只通过bag of words 模型用在图像处理中进行形象讲解,并没有涉及太多对SLAM的闭环检测的应用. 1.Bag-of-words模型简介 Bag-of-words模型是信息检索领域常用的文档表示方法.在信息检索中,BOW模型假定对于一个文档,忽略它的单词顺序和语法.句法等要素,将其仅仅看作是若

初识视觉SLAM:用相机解决定位和建图问题

引言:视觉SLAM 是指用相机解决定位和建图问题.本文以一个小机器人为例形象地介绍了视觉SLAM的功能及特点.本文选自<视觉SLAM十四讲:从理论到实践>. SLAM 是Simultaneous Localization and Mapping 的缩写,中文译作"同时定位与地图构建".它是指搭载特定传感器的主体,在没有环境先验信息的情况下,于运动过程中建立环境的模型,同时估计自己的运动.如果这里的传感器主要为相机,那就称为"视觉SLAM". 假设我们组装

TLD视觉跟踪算法(转)

源:TLD视觉跟踪算法 TLD算法好牛逼一个,这里有个视频,是作者展示算法的效果,http://www.56.com/u83/v_NTk3Mzc1NTI.html.下面这个csdn博客里有人做的相关总结,感觉挺好的,收藏了!下面有个Compressive Tracking的网址,提供的代码很少,但实时性很好,matlab代码下下来就能用. 以下博文转自:http://blog.csdn.net/windtalkersm/article/details/8018980 TLD是一种算法的简称,原作

视觉SLAM方向找工作经历

秋招已经过去了两个多月了,一直拖到现在2017年快完了才"舍得"写== 先说一下自己的基本情况,985硕士一枚,有还不错的一作会议论文,一直专注在视觉SLAM和三维重建方面,SLAM和三维重建内容都很多,我懂的并不够精. 虽然心里一直想早点开始准备,但是实验室的事情也比较多,还是拖到了2017年年初才开始花时间去准备,同时还在写一篇论文.实习很重要,实习基本都能留下,多一次实习多一个机会,有机会去的话能去就去.大厂的实习招聘大概在3~4月份,过完年之后就开始准备数据结构这块的知识,主要

视觉SLAM研究现状

1. 按处理图片的方式区分: 1.1 特征点法 PTAM.ORB-SLAM为代表. 步骤:1)提取特征点:2)根据特征点对不同图片进行匹配:3)根据视觉几何约束求出运动:4)通过最小化重投影误差优化结果. 优点:1)可以在非常多的图片之间寻找到特征匹配. 缺点:1)依赖特征点的效果,各个阈值需要很精巧地设定.2)需要剔除误匹配.3)特征点的优化往往是为了提高速度,带来的牺牲是特征点的鲁棒性. 1.2 直接法 LSD-SLAM.DSO为代表. 特点:1)直接用像素点的灰度值进行运算.特征法只用了特