论文阅读 | ExtremeNet:Bottom-up Object Detection by Grouping Extreme and Center Points

相关链接

论文地址:https://arxiv.org/abs/1901.08043

论文代码:https://github.com/xingyizhou/ExtremeNet

概述

ExtremeNet是今年(2019)1月23号挂在arxiv上的目标检测论文,是至今为止检测效果最好的单阶段目标检测算法。思想借鉴CornerNet,使用标准的关键点估计网络检测目标关键点进而构造目标的预测框。ExtremeNet预测四个extreme point(顶、左、底、右)以及目标的中心点,如果这五个点满足几何对齐关系,就将其组合成一个目标框。ExtremeNet在COCO test-dev上的AP达到43.2%。此外,根据extreme point还可以得到更加精细的八边形分割估计结果,在COCO Mask上的AP达到34.6%。

ExtremeNet介绍

ExtremeNet是一个自底向上的目标检测框架,检测目标的四个极值点(顶端、左端、底端、右端),使用state-of-the-art的关键点估计框架产生每个类别的五个Heatmaps(四个极值点和一个中心点)。使用纯几何方法组合同一目标的极值点:四个极值点的几何中心与预测的中心点heatmap匹配且高于阈值(暴力枚举,时间复杂度O(n^4),不过n一般非常小)。

图2 展示了算法的大致流程。首先产生四个预测极值点的heatmap(图2顶部)和一个预测中心点的heatmap(图2左下),提取极值点heatmap的峰值(图2中左),暴力枚举所有组合,计算几何中心(图2中右),如果几何中心与中心heatmap高度匹配,则接受该组合,否则拒绝(图2右下)。

该算法与CornerNet的区别在于关键点定义和组合。(1)CornerNet采用左上和右下角点,角点往往不在目标上,没有较强的外观特征;而ExtremeNet采用极值点,极值点在目标上,容易区分且具有一致的局部外观特征。(2)CornerNet点对组合是根据embedding vector的距离,而ExtremeNet则是根据几何中心点。ExtremeNet完全基于外观,没有任何的隐特征学习。

网络结构

网络结构如下图所示:

ExtremeNet使用Hourglass网络作为backbone,产生4个C通道、大小为H*W的heatmaps,一个C通道、大小为H*W的heatmap,以及4个2通道、大小为H*W的偏移map。Heatmaps通过加权逐像素逻辑回归进行训练,其中权重用于减少在ground-truth位置附近的假阳性惩罚(详见CornerNet)。四个极值点的估计使用了CornerNet的结构和损失函数,不过没有使用embedding部分。

focal loss的变体来处理heatmap损失:

其中,pcij是类别c在位置(i, j)的score,ycij是非标准化高斯增强的ground-truth,N是图像中目标数,α和β是超参数(实验中α设为2,β 设为4)。

Offsets则是位置偏移。下采样的使用使得输出尺寸小于原始图像尺寸,假设下采样因子为n,则图像中(x, y)映射到Heatmaps的([x/n], [y/n])。取整计算会导致精度丢失,使用offsets来更准确地进行Heatmaps到输入图像的映射。

训练过程中使用smooth L1损失,即:

训练设置、损失函数以及offset预测与CornerNet相同。

Center grouping算法如下:

ExtractPeak就是给定一个heatmap,检测其中所有的峰值来提取相应的关键点。峰值就是3*3窗口中的局部最大值。预设阈值进行筛选。暴力枚举所有组合,计算几何中心,如果其在中心点的heatmap上有高响应则接受结果,得分为五个heatmap的平均值。阈值设置τp=0.1,τc=0.1。

Center grouping算法可能会出现这样的情况:处理三个共线且尺度相同的目标时,是产生三个正确的小框还是一个错误的大框呢?这种假阳性的检测结果称为“ghost box”。文中使用一种soft NMS来抑制ghost box:如果某个边框中包含的所有框的分数之和超过其本身得分的3倍,则将其得分除以2。

此外,极值点并非总是唯一的,比如一个汽车的极值点可能是水平或竖直的线段,文中极值点的响应是对边缘多个点的弱响应而不是一个点的强响应。这有可能产生几个问题:弱响应可能会被忽略;目标如果发生轻微旋转即便检测到关键点,得分也有很大差异。作者采用边缘聚集的方法来解决:对于每个极值点(局部最大值点),分别沿水平和垂直两个方向进行聚集,也就是在每个方向上找极值点最近的左右两个局部最小值,在区间内做加权和作为极值点的得分。公式如下所示:

其中,m为极值点位置,i0、i1分别为距离m最近的两个局部最小值。

如下图所示,使用边缘聚集策略后,边缘中心的像素点的置信度明显提升:

实例分割

文中提出了一个简单的八边形逼近目标的方法(基于四个极值点形成的矩形边界框):将一个极值点左右各延长1/8形成线段,如果遇到矩形框的角时则截断。将这四个线段的端点连接起来,形成八边形。

实验

在COCO数据集上进行实验,如果一条边与坐标轴平行或者夹角小于3度,就将其中心作为极值点。从头训练太耗时,使用了CornerNet的预训练模型进行finetune。

细节:最多只取ExtractPeak 中top40的点进行枚举;测试阶段使用flip argumentation策略;对增强的检测结果使用soft NMS。检测速度3.1fps。

在COCO数据集上的检测结果:

由上表可见,ExtremeNet多尺度模型的效果达到目前单阶段算法的最佳AP(43.2%),比CornerNet提升1.1%;而单尺度模型的AP比CornerNet低了0.4%,在中、小目标的检测上AP都高于CornerNet,而大目标检测略差,可能原因是中心点的response map不够准确造成的。

在实例分割方面,ExtremeNet与DeepExtremeCut结合,在COCO val2017上达到34.6%的AP,而当前最先进的Mask RCNN的AP为34.0%(基于ResNet-50+FPN)、37.5%(基于ResNeXt-101+FPN)。在实例分割方面也与最先进的方法相当。

原文地址:https://www.cnblogs.com/cieusy/p/10399960.html

时间: 2024-11-07 04:54:23

论文阅读 | ExtremeNet:Bottom-up Object Detection by Grouping Extreme and Center Points的相关文章

论文阅读:Frequency-tuned Salient Region Detection

Frequency-tuned Salient Region Detection 作者发现,大部分方法产生的saliency map都不适合image segmentation.因为它们产生的saliency map分辨率低,物体边界不清楚,不能uniformly highlight 显著物体.这是由于向下采样让图像的频谱范围变窄了.为了解决这个问题,作者提出了对算法的五个要求,提出了一个适合做image segmentation 的saliency detector.五个要求是:着重强调最大的

论文阅读 | FCOS: Fully Convolutional One-Stage Object Detection

论文阅读——FCOS: Fully Convolutional One-Stage Object Detection 概述 目前anchor-free大热,从DenseBoxes到CornerNet.ExtremeNet,以及最近的FSAF.FoveaBox,避免了复杂的超参数设计,而且具有很好的检测效果.本文作者提出了一种全卷积的单阶段目标检测算法,类似于语义分割的做法使用像素级预测.该检测框架简单有效,而且可以方便地用于其他任务. 简介 再啰嗦一下基于anchor的检测算法的缺陷: 1.检测

论文阅读--Scalable Object Detection using Deep Neural Networks

Scalable Object Detection using Deep Neural Networks 作者: Dumitru Erhan, Christian Szegedy, Alexander Toshev, and Dragomir Anguelov 引用: Erhan, Dumitru, et al. "Scalable object detection using deep neural networks." Proceedings of the IEEE Confere

论文阅读(Chenyi Chen——【ACCV2016】R-CNN for Small Object Detection)

Chenyi Chen--[ACCV2016]R-CNN for Small Object Detection 目录 作者和相关链接 方法概括 创新点和贡献 方法细节 实验结果 总结与收获点 参考文献 作者和相关链接 论文下载 Chenyi Chen , Ming-Yu Liu, Jianxiong Xiao 所有作者的简单信息 方法概括 这篇文章主要讨论针对小目标的目标检测 文章为了证明:对传统的R-CNN style的方法进行改进,可以用于小目标检测,并且性能比DPM方法好 整个检测流程:

【转】论文阅读(Chenyi Chen——【ACCV2016】R-CNN for Small Object Detection)

Chenyi Chen--[ACCV2016]R-CNN for Small Object Detection 目录 作者和相关链接 方法概括 创新点和贡献 方法细节 实验结果 总结与收获点 参考文献 作者和相关链接 论文下载 Chenyi Chen , Ming-Yu Liu, Jianxiong Xiao 所有作者的简单信息 方法概括 这篇文章主要讨论针对小目标的目标检测 文章为了证明:对传统的R-CNN style的方法进行改进,可以用于小目标检测,并且性能比DPM方法好 整个检测流程:

论文阅读:DHSNet: Deep Hierarchical Saliency Network for Salient Object Detection

因写作需要,再精读一下这篇文章,只说这篇文章提出的方法. 1.摘要部分: 本文提出了一种基于卷积神经网络的深层次显著性网络(deep hierarchical saliency network,DHSNet).该网络以下统一称作"DHSNet".工作流程大体是这样的: 1)首先,DHSNet通过自动学习各种全局结构上的显著性线索(这些线索包括全局对比度.对象性.紧凑性以及它们的优化组合),对输入的图片生成一个粗略的全局上的预测结果: 2)接着, 本文提出了一种分层递归卷积神经网络(hi

论文: Feature Pyramid Networks for Object Detection

论文阅读: Feature Pyramid Networks for Object Detection Feature Pyramid 是提取图像特征领域的很重要的概念.在深度学习领域没有被提及是因为目前深度学习仍然受到计算量的限制. 本论文根据不同的feature maps给出了 Feature Pyramid Network,因为 Featrue Pyramid的尺度不变性,可以有效的解决Object Detection 中的目标物体不一致大小的问题. 熟悉图像处理的都知道 sift 算法,

An Analysis of Scale Invariance in Object Detection – SNIP 论文解读

前言 本来想按照惯例来一个overview的,结果看到一篇十分不错而且详细的介绍,因此copy过来,自己在前面大体总结一下论文,细节不做赘述,引用文章讲得很详细. 论文概述 引用文章 以下内容来自:http://lowrank.science/SNIP/ 这篇日志记录一些对下面这篇 CVPR 2018 Oral 文章的笔记. Singh B, Davis L S. An Analysis of Scale Invariance in Object Detection–SNIP[C]//Proce

【Network Architecture】Feature Pyramid Networks for Object Detection(FPN)论文解析(转)

目录 0. 前言 1. 博客一 2.. 博客二 0. 前言 ??这篇论文提出了一种新的特征融合方式来解决多尺度问题, 感觉挺有创新性的, 如果需要与其他网络进行拼接,还是需要再回到原文看一下细节.这里转了两篇比较好的博客作为备忘. 1. 博客一 这篇论文是CVPR2017年的文章,采用特征金字塔做目标检测,有许多亮点,特来分享. 论文:feature pyramid networks for object detection 论文链接:https://arxiv.org/abs/1612.031