Semantic Monocular SLAM for Highly Dynamic Environments面向高动态环境的语义单目SLAM

一、摘要

  当前单目SLAM系统能够实时稳定地在静态环境中运行,但是由于缺乏明显的动态异常处理能力,在动态场景变化与运动中往往会失败。作者为解决高度动态环境中的问题,提出一种语义单目SLAM架构,结合基于特征和直接方法实现具有挑战的条件下系统的鲁棒性。作者所提出的方法利用专业概率模型从场景中提取的语义信息,使跟踪和建图的概率最大化依赖于那些相对于相机没有呈现相对运动的场景部分。在KITTI和Synia数据集上,作者展示了在动态环境中更稳定的姿态估计效果以及相比当前最好静态场景下不错的表现。

二、贡献

1、提出了一个概率模型,该模型不仅仅依赖于逐帧的语义信息,还考虑了所有帧的语义信息,以估计每个地图点的语义。除了语义信息之外,作者还使用时间运动信息来论证某个地图点是动态的还是静态的。

2、设计了一个高效在线概率更新模型,该模型的内存消耗较低。

3、提出了一种基于CNN预测的语义先验信息的联合概率模型来建模动态异常值的单目SLAM方法。

三、论文总结

  通过依赖关于场景语义的知识,可以检测潜在的动态对象,而不需要直接地跟踪它们。通过对场景中建筑物、车道标线等静态部分的分割,可以指导这些区域的特征提取和匹配。

  本文针对高动态环境,提出了一种基于CNN预测的语义先验信息的联合概率模型建模动态异常值的单目SLAM方法。为了提取快速运动相机和无纹理环境中的特征,作者使用描述性与直接特征的组合的方法。与其他方法相比,概率异常模型允许静态和动态之间的平滑过渡,而这在交通场景中很常见。通过近似推理获得的有效在线更新允许实时应用。每个像素的语义信息仅返回对象的类。在户外环境中,静态像素的强度可能受到附近动态对象的影响,例如在道路上。特别是对于直接方法,这会导致产生沿着动态对象的阴影边界的特征,而这些特征并不是想要的。将用于语义分割的CNN延展到以一种基于图像上下文的方式直接预测像素属于动态对象的概率,可以减少获得可靠内点率估计所需的观察次数。使用有效的在线更新方法可以引入观察数据中的时相依赖性。

  来自CityScapes数据集的一个示例,该数据集是一个困难且高度动态的场景,其中车辆正站在交通灯前。大部分图像区域属于仅暂时静止且将开始缓慢移动的对象,因此导致仅基于运动线索的异常检测过程失效如图(b)。在图(c)中语义掩膜忽略了潜在动态区域中的所有关键点,因此不会使用停放的车辆进行姿态估计。本文的方法(如图d)使用深度方差以及融合语义信息(如图a)的逐点异常值估计。红圈表示估计的离群点测量值,绿圈表示用于姿态估计的内点。

四、算法结构

  ORB-SLAM方法中将直接提取的特征扩展到了建图模块中的匹配过程,因此这些特征可以用于追踪模型中的姿态估计。作者结合了概率模型来更新每个地图点的状态。位姿估计仅使用动态的地图点。增加或者修改模型,集成直接特征和概率内插模型,在图中用红色表示。

原文地址:https://www.cnblogs.com/zhuzhudong/p/10481658.html

时间: 2024-11-07 02:26:29

Semantic Monocular SLAM for Highly Dynamic Environments面向高动态环境的语义单目SLAM的相关文章

zoj 2112 Dynamic Rankings(主席树&动态第k大)

Dynamic Rankings Time Limit: 10 Seconds      Memory Limit: 32768 KB The Company Dynamic Rankings has developed a new kind of computer that is no longer satisfied with the query like to simply find the k-th smallest number of the given N numbers. They

在自遮挡下的单目图像3D姿态估计 Monocular Image 3D Human Pose Estimation under Self-Occlusion (ICCV 13)

Monocular Image 3D Human Pose Estimationunder Self-Occlusion (ICCV 13) 在自遮挡下的单目图像3D姿态估计 摘要:文中提出在单张图片中3D姿态自动重建的方法.人体关节.易产生幻觉的身体部位的存在,杂乱的背景,都将导致人体姿态判断的歧义性,这都说明这不是一个简单的问题.研究者研究了许多基于运动和阴影的方法,为了减小歧义性,并对3D姿态进行重建.我们算法的关键思想就是增加运动和方向限制.前一个是在3D模型映射到输入图像时增加的限制,

微软面向高并发应用而推出的新程序库——TPL Dataflow

TPL Dataflow库的几个扩展函数 TPL Dataflow是微软面向高并发应用而推出的新程序库.借助于异步消息传递与管道,它可以提供比线程池更好的控制.本身TPL库在DataflowBlock类中提供了不少扩展函数,用起来还是非常方便的,但感觉还是不够全(当然,MS没必要设计大而全的接口),前段时间写个小程序的时候用到了它,当时顺便写了几个扩展函数,这里记录一下,如果后续有扩展再继续补充. static class DataFlowExtension     {         ///

单目+惯性 VIO SLAM 总结比较好的网址

https://www.zhihu.com/question/53571648 有哪些开源项目是关于单目+imu做slam的? https://zhuanlan.zhihu.com/p/34995102 SLAM/VIO学习总结 原文地址:https://www.cnblogs.com/rjjhyj/p/10278157.html

Improving RGB-D SLAM in dynamic environments: A motion removal approach

一.贡献 (1)提出一种针对RGB-D的新的运动分割算法 (2)运动分割采用矢量量化深度图像 (3)数据集测试,并建立RGB-D SLAM系统 二.Related work [1]R.K. Namdev, A. Kundu, K.M. Krishna, C. Jawahar, Motion segmentation of multiple objects from a freely moving monocular camera, in: Robotics and Automation(ICRA

Working with Multiple Environments(使用多个环境)

Working with Multiple Environments ASP.NET 5提高了跨多环境控制应用程序行为的支持.比如:开发,过度,生产.环境变量用来表明应用程序运行的环境,允许适当配置应用程序. In  this   article(在这篇文章中主要介绍的章节如下): • Development, Staging, Production • Determining the environment at runtime • Startup conventions Browse or

面向切面(动态代理)

转http://blog.163.com/[email protected]/blog/static/105107513201442101336680/ 下载LOFTER 我的照片书  | 先说下:面向对象的编程思想是,将功能需求划分成不同的,相对独立的类,并让他们自己有着属于自己的行为,同时依靠继承和多态来定义彼此的关系. 而面向切面的的编程思想是,希望能够将通用的需求功能从毫不相干的类当中分离出来,能够使得许多类实现共享同一个行为,一旦行为发生变化,不必修改很多类,而只需要修改一处即可. 比

浅读《视觉SLAM十四讲:从理论到实践》--操作1--初识SLAM

下载<视觉SLAM十四讲:从理论到实践>源码:https://github.com/gaoxiang12/slambook 第二讲:初识SLAM 2.4.2 Hello SLAM(书本P27) 1.从github上下载源码,并解压 Ubuntu上,解压zip,先找到zip文件所在位置,然后运行下面代码,进行解压. unzip slambook-master.zip 解压后,找到ch2文件夹,在文件夹中找到helloSLAM.cpp文件 运行cpp文件 g++ helloSLAM.cpp 如未安

传统D3D11程序面向VS2015编译环境的配置修正细节

A.  配置细节 使用#include <unordered_map>替代<hash_map> 这个是c++标准建议的,没啥好说的 使用#include <directxmath.h>替代<xnamath.h> 注意:如不想修改原xnamath代码,则需在包含directxmath.h之前定义_XM_NO_INTRINSICS_宏标志,以与原xnamath代码兼容 然而,_XM_NO_INTRINSICS_标志将指示directxmath不使用SSE/SSE