论文阅读之:Is Faster R-CNN Doing Well for Pedestrian Detection?

Is Faster R-CNN Doing Well for Pedestrian Detection?

ECCV 2016   Liliang Zhang & Kaiming He

  原文链接:http://arxiv.org/pdf/1607.07032v2.pdf

  摘要:行人检测被人 argue 说是特定课题,而不是general 的物体检测。虽然最近的深度物体检测方法 如: Fast/Faster RCNN 在general 的物体检测中,展现了强大的性能,但是对于行人检测却不太成功。本文研究了 Faster RCNN 在行人检测中存在的问题,发现 RPN 在单独的行人检测器中表现良好,但是随后的分类器却降低了该结果。我们猜想可能是如下两个原因导致的:

  1. 对于处理小物体,feature maps 的分辨率较低;

  2. 缺乏任何 bootstrapping strategy 来挖掘 hard negative examples。

  基于这些观察,我们提出了一个简单但是非常有效的 baseline,利用 RPN后 通过 boosted forests 在共享的,高分辨率的卷积特征映射(using an RPN followed by boosted forests on shared, high-resolution convolutional feature maps)。在4个数据机上做了实验,得到了相当的精度和较好的速度。

   

  动机:随着近来自动驾驶,智能监控中对于行人检测越来越重视,但当前效果较好的行人 detectors 一般采用 hybrid 方法,结合传统手工设计的feature 和 深度卷积feature。另一方面,Faster RCNN 在 general 的物体检测上效果很好,而且仅仅利用了深度卷积特征,而没有传统手工设计的 feature,而且在行人检测数据集上效果不好!

  究其原因,可能有两点:

  首先,卷积feature maps 对于检测小物体来说是低分辨率的。常规场景下的行人检测,如自动驾驶和智能监控,行人的尺寸都是很小的。对于小物体而言,RoI pooling layer 在低分辨率的 feature map 上可能导致 “plain”features 。这些 feature 在小物体上不具有区分性,所以降低了分类器的性能。我们对比此处,可以发现,手工设计的feature 有较好的分辨率。我们通过从更浅层的但是分辨率高的层上来进行 feature 的采样,利用 the hole algorithm 来增加 feature map 的尺寸。

  其次,在行人检测问题上,错误的预测,一般都是由于 hard background instances 的混淆导致的。与此对应的是 general object detection 的混淆来源是 multiple categories。为了解决这些样本导致的问题,采用了级联的 Boosted Forest (BF),执行有效的 hard negative mining(bootstrapping)和 样本的 re-weight,来分类 RPN proposals。不像之前的方法利用手工设计的features 来训练 forest,我们重新利用 RPN 的卷积特征来训练。这种策略不但通过共享feature 降低了分类器的计算代价,也探索了深度学习到的features。

  本文在此观察的基础上,提出了特别简单但是有效的baseline,基于 RPN and BF 的机制进行行人检测。我们的方法克服了上述两种困难,而且摆脱了传统手工设计 feature。

  

  所提方法:本文的方法包括两个部分:RPN 用来产生 candidate boxes 和 卷积特征maps,以及 Boosted Forest 利用这些卷积特征进行分类。

  1. RPN for Pedestrian Detection

    这个和 Faster RCNN 貌似是一样的,咱不解释;

  2. Feature Extraction

    根据 RPN 产生的 proposals,我们采用 RoI pooling 来区域中提取固定长度的 feature。这些 feature 可以用来训练 BF 。

  

  

  

时间: 2024-10-12 17:49:23

论文阅读之:Is Faster R-CNN Doing Well for Pedestrian Detection?的相关文章

论文阅读:DHSNet: Deep Hierarchical Saliency Network for Salient Object Detection

因写作需要,再精读一下这篇文章,只说这篇文章提出的方法. 1.摘要部分: 本文提出了一种基于卷积神经网络的深层次显著性网络(deep hierarchical saliency network,DHSNet).该网络以下统一称作"DHSNet".工作流程大体是这样的: 1)首先,DHSNet通过自动学习各种全局结构上的显著性线索(这些线索包括全局对比度.对象性.紧凑性以及它们的优化组合),对输入的图片生成一个粗略的全局上的预测结果: 2)接着, 本文提出了一种分层递归卷积神经网络(hi

深度学习论文阅读笔记--Deep Learning Face Representation from Predicting 10,000 Classes

来自:CVPR 2014   作者:Yi Sun ,Xiaogang Wang,Xiaoao Tang 题目:Deep Learning Face Representation from Predicting 10,000 Classes 主要内容:通过深度学习来进行图像高级特征表示(DeepID),进而进行人脸的分类. 优点:在人脸验证上面做,可以很好的扩展到其他的应用,并且夸数据库有效性:在数据库中的类别越多时,其泛化能力越强,特征比较少,不像其他特征好几K甚至上M,好的泛化能力+不过拟合于

论文阅读 | FCOS: Fully Convolutional One-Stage Object Detection

论文阅读——FCOS: Fully Convolutional One-Stage Object Detection 概述 目前anchor-free大热,从DenseBoxes到CornerNet.ExtremeNet,以及最近的FSAF.FoveaBox,避免了复杂的超参数设计,而且具有很好的检测效果.本文作者提出了一种全卷积的单阶段目标检测算法,类似于语义分割的做法使用像素级预测.该检测框架简单有效,而且可以方便地用于其他任务. 简介 再啰嗦一下基于anchor的检测算法的缺陷: 1.检测

YOLO 论文阅读

YOLO(You Only Look Once)是一个流行的目标检测方法,和Faster RCNN等state of the art方法比起来,主打检测速度快.截止到目前为止(2017年2月初),YOLO已经发布了两个版本,在下文中分别称为YOLO V1和YOLO V2.YOLO V2的代码目前作为Darknet的一部分开源在GitHub.在这篇博客中,记录了阅读YOLO两个版本论文中的重点内容,并着重总结V2版本的改进. [email protected]/04: YOLO v3已经发布!可以

论文阅读--Scalable Object Detection using Deep Neural Networks

Scalable Object Detection using Deep Neural Networks 作者: Dumitru Erhan, Christian Szegedy, Alexander Toshev, and Dragomir Anguelov 引用: Erhan, Dumitru, et al. "Scalable object detection using deep neural networks." Proceedings of the IEEE Confere

论文阅读记录: Automatic Image Colorization sig16

sig论文阅读记录 Let there be Color!: Joint End-to-end Learning of Global and Local Image Priorsfor Automatic Image Colorization with Simultaneous Classification ( siggraph 2016 ) 论文简介 论文主页:http://hi.cs.waseda.ac.jp/~iizuka/projects/colorization/en/ 作者是来自Wa

论文阅读:Adaptive NMS: Refining Pedestrian Detection in a Crowd

论文阅读:Adaptive NMS: Refining Pedestrian Detection in a Crowd 2019年04月11日 23:08:02 Kivee123 阅读数 836 版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/qq_37014750/article/details/89222334 Adaptive-NMS(CVPR 2019) 文章  又是一篇在NMS上

论文阅读:《Bag of Tricks for Efficient Text Classification》

论文阅读:<Bag of Tricks for Efficient Text Classification> 2018-04-25 11:22:29 卓寿杰_SoulJoy 阅读数 954更多 分类专栏: 深度学习 自然语言处理 版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/u011239443/article/details/80076720 https://blog.csdn.ne

论文阅读方法

论文阅读方法 别先读摘要,从导言部分入手 找出大问题 这个领域正在设法解决什么问题? 以不超过5句话的篇幅总结背景 为解决这一"大问题",这一领域做过什么努力?之前的工作有什么局限?在作者看来,下一步需要做什么?简洁地解释为什么要进行这项研究. 找出具体问题 作者在他们的研究中究竟想回答什么问题?把这些问题(不一定是一个)写下来.如果是那种研究一个或者多个零假设的研究,把零假设辨别出来. 弄清解决手段 为了回答这些具体的问题,作者要怎么做? 阅读方法部分 为每一个实验画出一个图表,画出