Acquistion Location Confidence for accurate object detection

Acquistion Location Confidence for accurate object detection

本论文主要是解决一下两个问题:

1、分类得分高的预测框与IOU不匹配,(我猜应该是训练数据集导致的)

2、基于回归的边框修正是非单调的,缺乏可解释性。

贡献点

  1. IoU-guided NMS
  2. Optimization refine
  3. PRpooling

1、IoU-guided NMS

(1)传统 NMS :  根据边界框的分类置信度排序,每次选择cls score最大的框,并对与它IoU大于阈值的框抑制。定位准确的边界框中有很大一部分会被错误抑制,这是由分类置信度和定位准确度之间的不匹配造成的,

(2)IoU-NMS : 使用预测得到的IoU来对预测框进行排序,每次选择IoU最大的框并对与它IoU大于一定阈值的框抑制。

(3)soft-NMS:NMS基础上,IoU 大于阈值的框不将其分类置信度置为0。

为了使用IoU来指导排序,但在在测试的时候没有GroundTruth信息,于是设计一个网络来

估计边框与GroundTruth的IoU。如下图所示。

虚线框的是IoU-Net。

输入:Jittered-RoIs:通过对groundtruth 随机变换得到一系列的候选框(而不采用RPN输出的RoIs)

损失:smooth-L1 LOSS

输出:候选框与GroundTruth的IoU交并比(用于后续的IoU-guided NMS和优化修正算法)

2、提出的PrPooling代替了原来的RoI pooling

因为RPN网络输出的bounding box的坐标是浮点数,

  1. RoI Pooling:有量化误差
  2. RoI Align:不用量化,利用双线性插值计算出对应点的特征值。 但N=4固定,ROI大小不固定。
  3. PrRoI Pooling:利用双线性插值计算出对应点的特征值,该函数连续可导,有益于后续的基于优化的边框修正。

论文中的不足之处,缺少PrRoI-pooling的对照实验。在Mask-RCNN中的RoIAlign的精度相对于RoIPool明显提高。

The code is released at: https://github.com/vacancy/PreciseRoIPooling

3、基于优化的边框修正

问题:

基于回归的边界框精修非单调,对输入的分布变化敏感,不同的预测框迭代次数没法自适应。

解决方法:

通过每次修正得到的边界框预测得到IoU来修正。

基于优化的算法部分:

每次迭代对不同的预测框都做一次修正,因为PrRoI-Pool是连续可导的,所以通过梯度上升的方式进行优化,计算出边界框的变换。当变换后的边界框送入IoU-Net得到新的IoU与旧的IoU区别小于一定值或者出现退化,该边界框就不在修正。

基于回归的方法:如图第一排随着迭代次数的增加,红色的预测越来越偏离GroundTruth

基于优化的方法:如图第二排随着迭代次数增加,预测框越来越精确。

4、实验细节

(1)数据集:

80类别的MS-COCO 80k张训练图像和35k张验证图像,5k张验证图像做测试。

(2)训练参数设置:

输入图像裁剪为1200*800的大小

IoU-Net的训练数据是另外产生的。对于IoU-Net的 IoU标签通过正则化变为【-1,1】之间。

每层的参数设置为mean=0,标准差=0.01或0.001的高斯分布,batchsize大小为16,在推理部分,先还是使用了一次边框回归来初始化坐标,为了加快推理,对所有检测框做IoU -NMS前100个最大分类置信度的边框再使用基于优化的算法进行微调。

5、实验结果比较

相比于soft-NMS,采用了IoU-NMS的结果在AP90上明显提高了。

问题:AP50的结果较差。

问题原因:因为较小的IoU的框与GroundTruth的特征差异大,导致了IoU预测器不精确,修正也退化了。

解决方法:通过采集更多小IoU的来训练就可以解决

IoU-Net相较于FPN、Mask-RCNN速度下降了一点,但精度有所提升,时间耗费应该主要是在基于优化的边框修正上

原文地址:https://www.cnblogs.com/SuperLab/p/10286298.html

时间: 2024-08-08 00:20:42

Acquistion Location Confidence for accurate object detection的相关文章

Rich feature hierarchies for accurate object detection and semantic segmentation

一.主要思想 本文的主要思想首先采用Selective Search for Object Recognition论文的方法对每张图像分块得到多个个Region proposals,然后对每个Region proposal提取CNN特征,在采用线性svm进行分类,在VOC2012上面达到了 53.3%的mAP. 二.Object detection with R-CNN 1.模型框架 (1)获取Region proposals 采用Selective Search for Object Reco

[论文理解]Region-Based Convolutional Networks for Accurate Object Detection and Segmentation

Region-Based Convolutional Networks for Accurate Object Detection and Segmentation 概括 这是一篇2016年的目标检测的文章,也是一篇比较经典的目标检测的文章.作者介绍到,现在表现最好的方法非常的复杂,而本文的方法,简单又容易理解,并且不需要大量的训练集. 文章的大致脉络如图. 产生region proposal 文章提到了滑窗的方法,由于滑窗的方法缺点非常明显,就是每次只能检测一个aspect ratio,所以确

Rich feature hierarchies for accurate object detection and semantic segmentation(理解)

0 - 背景 该论文是2014年CVPR的经典论文,其提出的模型称为R-CNN(Regions with Convolutional Neural Network Features),曾经是物体检测领域的state-of-art模型. 1 - 相关知识补充 1.1 - Selective Search 该算法用来产生粗选的regions区域,在我的另一篇博文Selective Search for Object Recognition(理解)中进行详细讲解. 1.2 - 无监督预训练&有监督预训

论文解读1——Rich feature hierarchies for accurate object detection and semantic segmentation

背景 在2012 Imagenet LSVRC比赛中,Alexnet以15.3%的top-5 错误率轻松拔得头筹(第二名top-5错误率为26.2%).由此,ConvNet的潜力受到广泛认可,一炮而红.既然convNet在图像分类任务上能取得好成绩,是不是也能放到目标检测任务上呢.本文就是用convNet解决目标检测任务的首次探索.在PASCAL VOC 2010上的mAP达到了53.7%. 方法 模型一共分为三个模块. (1)region proposals(区域推荐)).在一张整图上面产生很

【论文笔记】Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

写在前面: 我看的paper大多为Computer Vision.Deep Learning相关的paper,现在基本也处于入门阶段,一些理解可能不太正确.说到底,小女子才疏学浅,如果有错误及理解不透彻的地方,欢迎各位大神批评指正! E-mail:[email protected]. ------------------------------------------------ <Faster R-CNN: Towards Real-Time Object Detection with Reg

中文版 R-FCN: Object Detection via Region-based Fully Convolutional Networks

R-FCN: Object Detection via Region-based Fully Convolutional Networks 摘要 我们提出了基于区域的全卷积网络,以实现准确和高效的目标检测.与先前的基于区域的检测器(如Fast/Faster R-CNN [6,18])相比,这些检测器应用昂贵的每个区域子网络数百次,我们的基于区域的检测器是全卷积的,几乎所有计算都在整张图像上共享.为了实现这一目标,我们提出了位置敏感分数图,以解决图像分类中的平移不变性与目标检测中的平移变化之间的困

手撕coreML之yolov2 object detection物体检测(含源代码)

一些闲话: 前面我有篇博客 https://www.cnblogs.com/riddick/p/10434339.html ,大致说了下如何将pytorch训练的.pth模型转换为mlmodel,部署在IOS端进行前向预测.只是介绍了下类接口,并没有示例,因此有可能会陷入没有demo你说个p的境地.因此,今天就拿实际的模型来说上一说. 其实coreML的demo,github上有很多,但是大部分都是用swift写的,而对于从C/C++语言过来的同学来说,Objective-C或许会更容易看懂一些

论文笔记:Faster R-CNN:Towards Real-Time Object Detection with Region Proposal Networks

文章: http://arxiv.org/abs/1506.01497 源码:坐等.... 目录: Region Proposal Networks Translation-Invariant Anchors A Loss Function for Learning Region Proposals Optimization Sharing Convolutional Features for Region Proposal and Object Detection Implementation

【Network Architecture】Feature Pyramid Networks for Object Detection(FPN)论文解析(转)

目录 0. 前言 1. 博客一 2.. 博客二 0. 前言 ??这篇论文提出了一种新的特征融合方式来解决多尺度问题, 感觉挺有创新性的, 如果需要与其他网络进行拼接,还是需要再回到原文看一下细节.这里转了两篇比较好的博客作为备忘. 1. 博客一 这篇论文是CVPR2017年的文章,采用特征金字塔做目标检测,有许多亮点,特来分享. 论文:feature pyramid networks for object detection 论文链接:https://arxiv.org/abs/1612.031