目标检测论文(尤其针对一些小目标的可能改进方法)

------------------------------------------------------------------------
About Face detection
------------------------------------------------------------------------
1、Finding Tiny Faces
    Code:https://github.com/peiyunh/tiny
    小目标检测难3大原因:目标本身尺度变化、图像分辨率以及环境因素。本文针对多尺度训练了不同的检测器,这些检测器所用特征来自同一网络的不同层级。此外,还充分利用了目标周边信息。

2、Seeing Small Faces from Robust Anchor’s Perspective
    基于anchor设计原理解决小脸检测不到的问题。

3、Face-MagNet: Magnifying Feature Maps to Detect Small Faces
    Code:https://github.com/po0ya/face-magnet
    基于Faster-RCNN框架提出Face-MagNet网络(在人脸建议和分类前放大特征图的判别能力)而无需任何跳过或残差连接。在RPN中和ROI前都加了一组反卷积层。另外,评估了其他3种针对尺度问题而有较好调整架构的方法:context pooling, skip connections, and scale partitioning.

4、Detecting and counting tiny faces
    Code:https://github.com/alexattia/ExtendedTinyFaces
    对Finding Tiny Faces这篇文章的深入理解,类似的方法。

5、SSH: Single Stage Headless Face Detector
    Code:https://github.com/mahyarnajibi/SSH
    单阶段检测器,速度快,占用内存少,在不同深度的网络层进行人脸检测,用于检测大、中、小人脸。

6、S3FD: Single Shot Scale-invariant Face Detector
    Code:https://github.com/sfzhang15/SFD
    (1) proposing a scale-equitable face detection framework to handle different scales of faces well.
    (2) improving the recall rate of small faces by a scale compensation anchor matching strategy.
    (3) reducing the false positive rate of small faces via a max-out background label.

7、Multi-Path Region-Based Convolutional Neural Network for Accurate Detection of Unconstrained “Hard Faces”
    a two-stage cascaded face detection framework:
    (1) a Multi-Path Region Proposal Network(MP-RPN),利用3个平行特征图的输出预测不同尺度的候选人脸区域,嵌有带有上采样过滤的卷积层和新提出的产生“难”例采样层。
    (2) a Boosted Forests classifier,利用候选人脸区域内的深层面部特征和周围更大区域的上下文特征,大大减少 hard negative samples.

8、Scale-Aware Face Detection
    先对图片上的人脸进行尺度估计,再在特定尺度上进行人脸检测(使用RPN,只使用一种anchor,且每次只检测一张脸)。不用在各个尺度下对人脸检测,因此速度较快。

9、Detecting Faces Using Inside Cascaded Contextual CNN
    不是使用多个CNN网络来级联的,而是使用一个CNN中不同网络层来做级联。CNN网络的前几层完成简单的人脸检测,后面的网络完成难度较大的人脸检测,采用data routing机制来使不同的卷积层由不同类型的样本来训练,关注于去掉不同类型的非人脸样本。 同时使用 body part localization 来辅助人脸检测。

10、Face Detection through Scale-Friendly Deep Convolutional Networks
    核心方法类似SSD。在网络不同阶段引出分支检测对应范围的人脸。训练时针对不同分组只用对应尺度的样本进行训练。

11、A Multi-Scale Cascade Fully Convolutional Network Face Detector
    基于FCNs的3层级联结构。It first proposes the approximate locations where the faces may be, then aims to find the accurate location by zooming on to the faces. Each level of the FCN cascade is a multi-scale fully-convolutional network, which generates scores at different locations and in different scales. A score map is generated after each FCN stage. Probable regions of face are selected and fed to the next stage. The number of proposals is decreased after each level, and the areas of regions are decreased to more precisely fit the face.

12、Face Detection using Deep Learning: An Improved Faster RCNN Approach
    对Faster RCNN的一些改进策略: feature concatenation, hard negative mining, multi-scale training, model pretraining, and proper calibration of key parameters.

13、Face R-CNN
    对Faster RCNN改进:new multi-task loss function design, online hard example mining, and multi-scale training strategy

14、Face Detection Using Improved Faster RCNN
    multi-scale training, multi-scale testing, light-designed RCNN, keep the small proposals at training and testing stage, directly select top-ranked proposals (e.g., 6000) without NMS in the RPN stage for R-CNN, a vote-based NMS ensemble strategy.

15、Anchor Cascade for Efficient Face Detection
    propose a context pyramid maxout mechanism for anchor cascade。大大减少计算量和提高检测精度。同时对于训练小规模模型也有很高的检测精度。

16、SFace: An Efficient Network for Face Detection in Large Scale Variations
    解决大尺度变化问题。提出新算法SFace:整合了anchor-based methods(类似RetinaNet)和anchor-free based methods(类似UnitBox)。

-----------------------------------------------------------------------

-----------------------------------------------------------------------
1、Single-Shot Refinement Neural Network for Object Detection
    Code:https://github.com/sfzhang15/RefineDet
    可看做将Faster RCNN的two stages检测方法和SSD结合。
    propose a novel one-stage framework(RefineDet) consists of two inter-connected modules. the former aims to (1) filter out negative anchors to reduce search space for the classifier, and (2) coarsely adjust the locations and sizes of anchors to provide better initialization for the subsequent regressor. The latter module takes the refined anchors as the input from the former to further improve the regression and predict multi-class label. Meanwhile, we design a transfer connection block to transfer the features in the anchor refinement module to predict locations, sizes and class labels of objects in the object detection module. The multitask loss function enables us to train the whole network in an end-to-end way.

2、An Analysis of Scale Invariance in Object Detection-SNIP
    可看成改版版本的Image Pyramid。
    分析了小尺度与预训练模型尺度之间的关系, 提出了Scale Normalization for Image Pyramids (SNIP):在训练中,每次只回传那些大小在一个预先指定范围内的proposal的gradient,而忽略掉过大或者过小的proposal;在测试中,建立大小不同的Image Pyramid,在每张图上都运行这样一个detector,同样只保留那些大小在指定范围之内的输出结果,最终在一起NMS。这样就可以保证网络总是在同样scale的物体上训练,也就是标题中Scale Normalized的意思。

3、Cascade R-CNN: Delving into High Quality Object Detection 
    Code:https://github.com/zhaoweicai/cascade-rcnn
    基于two-stage detector。Cascade R-CNN是R-CNN的multi-stage延伸,由一系列随着IOU临界值增加而训练的检测器构成,从而对close false positives更具有选择性。R-CNN阶段的cascade是按顺序训练的,使用一个阶段的输出来训练下一阶段。类似于boostrapping methods,不同点是Cascade R-CNN的重采样过程并不旨在mine hard negatives,而是通过调整bounding boxes,每个阶段的目的都是为了找到一组好的false positive来训练下一阶段。

4、Single-Shot Object Detection with Enriched Semantics
    在SSD网络基础上,增加了语义分割分支和全局激活模块。前者增加低层检测特征,后者通过学习特征通道和目标类别的语义关系来进行高层目标检测特征。

5、Multi-scale Location-aware Kernel Representation for Object Detection
    Code:https://github.com/Hwang64/MLKP
    提出了一种新颖的多尺度位置感知核表示(MLKP),将判别性高阶统计量结合到object proposals的表示中以进行有效的对象检测。MLKP基于多项式核近似,可以有效生成低维高阶表示,其固有的位置保持性和敏感性也保证了可以灵活地用于目标检测。

6、A-Fast-RCNN: Hard Positive Generation via Adversary for Object Detection
    Code:https://github.com/xiaolonw/adversarial-frcnn
    提出学习一个可以生成遮挡和变形样本的对抗网络,对抗器的目标是生成让目标检测器难以进行分类的样本。在我们的框架中,原始检测器和对抗器都是以联合的方式学习的。

7、Detecting Small Signs from Large Images
    large images are broken into small patches as input to a Small Object-Sensitive-CNN (SOS-CNN) modified from a Single Shot Multibox Detector (SSD) framework with a VGG-16 network as the base network to produce patch-level object detection results. Scale invariance is achieved by applying the SOS-CNN on an image pyramid. Then, image-level object detection is obtained by projecting all the patch-level detection results to the image at the original scale.

8、Perceptual Generative Adversarial Networks for Small Object Detection
    P-GAN将小目标的特征映射到相似的大目标特征上来缩小差别,便能将小目标足够近似到大目标来欺骗判别器,达到小目标检测的目的。

9、Feature Pyramid Networks for Object Detection
    特征金字塔网络。

10、SOD-MTGAN: Small Object Detection via Multi-Task Generative Adversarial Network
    提出一个对于小目标检测的标准的端到端的多任务生成对抗网络(MTGAN),适用于任何已有的检测器。In the MTGAN, the generator network produces super-resolved images and the multi-task discriminator network is introduced to distinguish the real high-resolution images from fake ones, predict object categories, and refine bounding boxes, simultaneously. More importantly, the classification and regression losses are back-propagated to further guide the generator network to produce super-resolved images for easier classification and better localization.

11、Deep Feature Pyramid Reconfiguration for Object Detection
    当前特征金字塔的设计在如何整合不同尺度的语义信息方面仍然不够高效。本文把特征金字塔转换为特征的再组合过程,创造性地提出了一种高度非线性但是计算快速的结构将底层表示和高层语义特征进行整合。该网络由两个模块组成:全局注意力和局部再组合。这两个模块分布能全局和局部地去在不同的空间和尺度上提取任务相关的特征。重要的是,这两个模块具有轻量级、可嵌入和可端到端训练的优点。

12、Parallel Feature Pyramid Network for Object Detection
    使用SPP模块通过扩大网络宽度而不是增加深度来生成金字塔形特征图。提出MSCA模块有效地组合了不同规模的上下文信息。

13、SAN: Learning Relationship between Convolutional Features for Multi-Scale Object Detection
    提出了Scale Aware Network (SAN),将来自不同尺度的卷积特征映射到尺度不变的子空间,并设计了一种独特的学习方法,纯粹考虑了没有空间信息的渠道之间的关系。所提出的SAN减少了标度空间中的特征差异并提高了检测精度。

14、A CLOSER LOOK: SMALL OBJECT DETECTION IN FASTER R-CNN
    介绍了一种生成anchor proposals的改进建议,并对Faster R-CNN进行修改,利用较高分辨率的小目标的feature maps。

15、Improving Small Object Proposals for Company Logo Detection
    we introduce an improved scheme for generating anchor proposals and propose a modification to Faster R-CNN which leverages higher-resolution feature maps for small objects.

16、Scale-aware Pixel-wise Object Proposal Networks
    提出Scale-aware Pixel-wise Object Proposal(SPOP)网络,可以生成具有高召回率和平均最佳重叠(ABO)的proposals,即使对于小目标也是如此。另外,引入了一个类似分段的像素定位网络来密集预测每个像素的对象坐标,并开发了一种尺度感知对象定位策略,该策略将来自大尺寸和小尺寸网络的预测与加权机制相结合,以提高各种对象尺寸的坐标预测精度。

———————————————————————————————
原文链接:https://blog.csdn.net/u014236392/article/details/83993730

原文地址:https://www.cnblogs.com/ylHe/p/11378853.html

时间: 2024-07-29 19:37:49

目标检测论文(尤其针对一些小目标的可能改进方法)的相关文章

目标检测论文解读5——YOLO v1

背景 之前热门的目标检测方法都是two stage的,即分为region proposal和classification两个阶段,本文是对one stage方法的初次探索. 方法 首先看一下模型的网络结构,输入的原图片,经过24个卷积层提取特征,全连接层输出一个7*7*30的tensor,这个tensor里面就包含我们预测的结果了. 那么这个7*7*30的tensor包含哪些信息呢? 首先,7*7可以映射到448*448的原图片中,得到7*7个64*64的grid cell,对于原图中的每一个目

目标检测论文阅读:Deformable Convolutional Networks

https://blog.csdn.net/qq_21949357/article/details/80538255 这篇论文其实读起来还是比较难懂的,主要是细节部分很需要推敲,尤其是deformable的卷积如何实现的一步上,在写这篇博客之前,我也查阅了很多其他人的分享或者去github找代码,当然也不敢说完全了解了这种特殊的卷积--仅仅做一点自己的阅读心得与体会吧.这是一篇很有意义的工作,但是和深度学习很多论文一样,在读完之后内心也不免有着种种疑云. Deformable Convoluti

目标检测论文解读2——Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

背景 用ConvNet方法解决图像分类.检测问题成为热潮,但这些方法都需要先把图片resize到固定的w*h,再丢进网络里,图片经过resize可能会丢失一些信息.论文作者发明了SPP pooling(空间金字塔池化)层,让网络可以接受任意size的输入. 方法 首先思考一个问题,为什么ConvNet需要一个固定size的图片作为输入,我们知道,Conv层只需要channel固定(彩色图片3,灰度图1),但可以接受任意w*h的输入,当然输出的w*h也会跟着变化:然而,后面的FC层却需要固定长度的

目标检测论文解读12——RetinaNet

引言 这篇论文深刻分析了one-stage的模型精度比two-stage更差的原因,并提出Focal Loss提高精度. 思路 在论文中,作者指出,造成one-stage模型精度差的原因主要是:正负样本极不平衡.一张图片只有那么几个目标,但是用来分类的Anchor Box却能达到几千个,大量的样本都是负样本,而且大多数负样本都是容易分类的简单样本,这些简单样本的loss虽然低但是凭借着数量众多,能对loss有很大的贡献.因此分类器只用无脑判负也能达到不错的效果. 作者提出的Focal Loss能

目标检测论文解读7——YOLO v2

背景 YOLO v1检测效果不好,且无法应用于检测密集物体. 方法 YOLO v2是在YOLO v1的基础上,做出如下改进. (1)引入很火的Batch Normalization,提高mAP和训练速度: (2)加入了Anchor Box机制,每个grid cell5个Anchor Box: (3)自动选择Anchor Box,这是作者所作出的创新,之前Anchor Box都是人为直接规定的,显然不是很合理.作者通过K-means聚类算法,用IoU作为距离度量,生成了Anchor Box的尺度.

目标检测论文解读11——Mask R-CNN

目的 让Faster R-CNN能做实例分割的任务. 方法 模型的结构图如下. 与Faster R-CNN相比,主要有两点变化. (1) 用RoI Align替代RoI Pool. 首先回顾一下RoI Pool,流程为:将RPN产生的原图侯选框映射到CNNs输出的feature map上,显然原图比feature map大,所以映射后的像素坐标可能会有小数,这里的做法是用近邻插值法,通俗讲,坐标四舍五入. 而这种做法肯定会带来一些空间位置上的小误差,而我们后面的实例分割是逐像素的,接受不了这种误

One Stage目标检测

在计算机视觉中,目标检测是一个难题.在大型项目中,首先需要先进行目标检测,得到对应类别和坐标后,才进行之后的各种分析.如人脸识别,通常是首先人脸检测,得到人脸的目标框,再对此目标框进行人脸识别.如果该物体都不能检测得到,则后续的分析就无从入手.因此,目标检测占据着十分重要的地位.在目标检测算法中,通常可以分成One-Stage单阶段和Two-Stage双阶段.而在实际中,我经常接触到的是One-Stage算法,如YOLO,SSD等.接下来,对常接触到的这部分One-stage单阶段目标检测算法进

AI佳作解读系列(五) - 目标检测二十年技术综述

计算机视觉中的目标检测,因其在真实世界的大量应用需求,比如自动驾驶.视频监控.机器人视觉等,而被研究学者广泛关注. 上周四,arXiv新出一篇目标检测文献<Object Detection in 20 Years: A Survey>,其对该领域20年来出现的技术进行了综述,这是一篇投向PAMI的论文,作者们review了400+篇论文,总结了目标检测发展的里程碑算法和state-of-the-art,并且难能可贵的对算法流程各个技术模块的演进也进行了说明,还深入到目标检测的特定领域,如人脸检

4. 基于深度学习的目标检测算法的综述(转)

4. 基于深度学习的目标检测算法的综述(转) 原文链接:https://www.cnblogs.com/zyly/p/9250195.html 目录 一 相关研究 1.选择性搜索(Selective Search) 2.OverFeat 二.基于区域提名的方法 1.R-CNN 2.SPP-Net 3.Fast R-CNN 4.Faster R-CNN 5.R-FCN 三 端对端的方法 1.YOLO 2.SSD 四 总结 在前面几节中,我们已经介绍了什么是目标检测,以及如何进行目标检测,还提及了滑