【CVPR2018】PointFusion: Deep Sensor Fusion for 3D Bounding Box Estimation

又一篇3D点云detection的顶会。这篇文章是two stage的方法,非end-to-end。文章的前提是利用faster rcnn得到2D图像的image crop;然后才是本文介绍的PointFusion,即将image crop和对应的3D点云数据作为输入,得到3D box。可以说这篇文章实际2D检测基础上做3D检测。

整个模型如图:

  • 输入:2D 图像块(fatser RCNN检测结果);对应的3D点云
  • 模型:
    • 特征提取:

      • 2D图像用预训练的ResNet50提取2048d的特征
      • 用多个PointNet网络(去除BN层)提取1024d的全局特征($1024\times1$)和每个点的64d特征($64\times n$)
    • 特征融合
      • Global Fusion (baseline model)初始版本

        • 将2D的2048d全局特征和3D的1024d全局特征concatenate到一起得到3072d的特征($3072\times1$)
        • 3072d经过一个MLP
        • 输出:3D box 8个角点的x,y,z坐标($1\times8\times3$)
      • Dense Fusion (final model)最终版本
        • 每个点的64d特征+2048d2维特征+1024d三维全局特征concatenate到一起,得到$n\times2126$维特征。
        • 经过MLP之后,两个branch:
          • 输出$n\times2$,即每个点做2分类,判断该点是否在target bounding box中
          • 输出$n\times8\times3$,即每个点分别在x,y,z方向输出偏置(offset),即该点在三个坐标方向上离8个角点的距离

原文地址:https://www.cnblogs.com/xiaoaoran/p/12233994.html

时间: 2024-10-11 15:53:27

【CVPR2018】PointFusion: Deep Sensor Fusion for 3D Bounding Box Estimation的相关文章

【OpenGL】“我叫MT”纯手工3D动画制作之1——基础介绍

最近在家研习面经,温习基础,索性花些时间将本科期间完成的一些学习之作整理出来,分享之余顺便水点经验 其实这个事情起源于一门“计算机图形与动画(Computer Graphics & Animation)”的外方课程,当初的外籍教师Tony教的很认真,对于这门课自己也投入了非常多的时间.言归正传,这里先介绍一些涉及的技术,熟悉的同学请跳过哈~ A.几何物体建模 带阴影的后面我会介绍到的哦~ 加下划线的后面我后面会举栗子的哦~ B.涉及的图形学技术与应用 C.动画技术 参考文献 1.王汝传,张登银,

【OpenGL】“我叫MT”纯手工3D动画制作之2——建立模型

最近在家研习面经,温习基础,索性花些时间将本科期间完成的一些学习之作整理出来,分享之余顺便水点经验 其实这个事情起源于一门“计算机图形与动画(Computer Graphics & Animation)”的外方课程,当初的外籍教师Tony教的很认真,对于这门课自己也投入了非常多的时间.言归正传,这里先介绍一些涉及的技术,熟悉的同学请跳过哈~ D.准备工作 需要的相关库有: • QuickTime 7.7.1 for Windows (主要用于播放动画与配音) • QuickTime SDK (开

【RS】Wide & Deep Learning for Recommender Systems - 广泛和深度学习的推荐系统

[论文标题]Wide & Deep Learning for Recommender Systems (DLRS'16) [论文作者] Heng-Tze Cheng, Levent Koc, Jeremiah Harmsen, Tal Shaked, Tushar Chandra,Hrishi Aradhye, Glen Anderson, Greg Corrado, Wei Chai, Mustafa Ispir, Rohan Anil,Zakaria Haque, Lichan Hong,

【转载】Distributed Deep Learning on MPP and Hadoop

Distributed Deep Learning on MPP and Hadoop DECEMBER 17, 2014 | FEATURES | BY REGUNATHAN RADHAKRISHNAN Joint work performed by Regunathan Radhakrishnan, Gautam Muralidhar, Ailey Crow, and Sarah Aerni of Pivotal’s Data Science Labs. Deep learning grea

【随机化】bzoj4080 [Wf2014]Sensor Network

#include<cstdio> #include<algorithm> #include<cmath> using namespace std; typedef double db; struct Point{int x,y,p;}p[101],path[101]; int n,m,ans,apa[101]; int sqr(int x){return x*x;} int dis(Point a,Point b){return sqr(a.x-b.x)+sqr(a.y

【转】如何在IOS中使用3D UI - CALayer的透视投影

原文网址:http://www.tairan.com/archives/2041/ 例子代码可以在 http://www.tairan.com/thread-3607-1-1.html 下载 iOS的UI是基于UIView类的,我们能看到的每个UI元素都是UIView或者UIView的子类.View按树形结构组织起来,树根是UIWindow. View负责界面的交互和显示,其中显示部分由CALayer来完成.每个UIView包含一个CALayer实例.可以这么认为,UIView本身是不可见的,我

【转帖】【面向代码】学习 Deep Learning(二)Deep Belief Nets(DBNs)

今天介绍DBN的内容,其中关键部分都是(Restricted Boltzmann Machines, RBM)的步骤,所以先放一张rbm的结构,帮助理解 (图来自baidu的一个讲解ppt) ========================================================================================== 照例,我们首先来看一个完整的DBN的例子程序: 这是\tests\test_example_DBN.m 中的ex2 [cpp]

【转载】C# 开源库大全非常好

原文地址:http://m.blog.csdn.net/woddle/article/details/37311877 C#开源大全 商业协作和项目管理平台-TeamLab 网络视频会议软件-VMukti 驰骋工作流程引擎-ccflow [免费]正则表达式测试工具-Regex-Tester Windows-Phone-7-SDK Excel-读写组件-ExcelLibrary .NET集成开发环境-MonoDevelop 电话软交换机-FreeSWITCH 开源操作系统-Cosmos 坦克机器人

论文阅读(Lukas Neumann——【ICCV2017】Deep TextSpotter_An End-to-End Trainable Scene Text Localization and Recognition Framework)

Lukas Neumann--[ICCV2017]Deep TextSpotter_An End-to-End Trainable Scene Text Localization and Recognition Framework 目录 作者和相关链接 方法概括 方法细节 实验结果 总结与收获点 参考文献和链接 作者和相关链接 作者 论文下载 代码下载 方法概括 方法概述 该方法将文字检测和识别整合到一个端到端的网络中.检测使用YOLOv2+RPN,并利用双线性采样将文字区域统一为高度一致的变长