论文解读1——Rich feature hierarchies for accurate object detection and semantic segmentation

背景

  在2012 Imagenet LSVRC比赛中,Alexnet以15.3%的top-5 错误率轻松拔得头筹(第二名top-5错误率为26.2%)。由此,ConvNet的潜力受到广泛认可,一炮而红。既然convNet在图像分类任务上能取得好成绩,是不是也能放到目标检测任务上呢。本文就是用convNet解决目标检测任务的首次探索。在PASCAL VOC 2010上的mAP达到了53.7%。

方法

  模型一共分为三个模块。

  (1)region proposals(区域推荐))。在一张整图上面产生很多的侯选框,因为目标检测任务不仅要做分类,还得把目标框出来。这里其实是用了遍历的思想,先把可能存在目标的位置全部列出来,再一个个分类。这里用到的是selective search算法。

  (2)Feature extraction(特征提取)。这部分就是通过AlexNet的前5个conv层和前2个FC层对上面产生224*224*3的图片进行特征提取(注意:产生的子图片要resize到224*224*3,因为后面的FC层接受的是固定长度的vector),最终产生的是4096-d的feature vector。

  (3)SVM分类。使用SVM方法对每个4096-d的feature vector进行分类。注意,原AlexNet里面分类是在后面加一个FC层,把4096-d的vector转成N-d(N是类别数),然后用softmax算法做分类。作者之所以不用这种方法是因为实验中SVM方法效果更好。

总结

  可以发现,RCNN的原理十分简单,先用selective search算法在整图上产生n个子图,再把子图resize到224*224*3,然后扔到AlexNet里面(FC-softmax层去掉),产生n个4096-d的vector,用SVM算法分类。

  它的贡献在于是用convNet解决目标检测问题的开山之作,模型的mAP比传统方法高,让更多人通过ConvNet来解决目标检测问题。

缺点

  (1)它的缺点当然也是很明显的,首先这种方法太暴力,一张图片要产生几千张子图,占用大量的磁盘空间;

  (2)还有就是效率低,我们可以发现,几千张图片肯定有非常多重合的部分,然而这些重合部分都要分开来计算,产生了大量的冗余计算。

原文地址:https://www.cnblogs.com/xin1998/p/11371615.html

时间: 2024-08-09 12:04:33

论文解读1——Rich feature hierarchies for accurate object detection and semantic segmentation的相关文章

Rich feature hierarchies for accurate object detection and semantic segmentation

一.主要思想 本文的主要思想首先采用Selective Search for Object Recognition论文的方法对每张图像分块得到多个个Region proposals,然后对每个Region proposal提取CNN特征,在采用线性svm进行分类,在VOC2012上面达到了 53.3%的mAP. 二.Object detection with R-CNN 1.模型框架 (1)获取Region proposals 采用Selective Search for Object Reco

Rich feature hierarchies for accurate object detection and semantic segmentation(理解)

0 - 背景 该论文是2014年CVPR的经典论文,其提出的模型称为R-CNN(Regions with Convolutional Neural Network Features),曾经是物体检测领域的state-of-art模型. 1 - 相关知识补充 1.1 - Selective Search 该算法用来产生粗选的regions区域,在我的另一篇博文Selective Search for Object Recognition(理解)中进行详细讲解. 1.2 - 无监督预训练&有监督预训

论文阅读 | FPN:Feature Pyramid Networks for Object Detection

论文地址:https://arxiv.org/pdf/1612.03144v2.pdf 代码地址:https://github.com/unsky/FPN 概述 FPN是FAIR发表在CVPR 2017上的一篇文章,采用特征金字塔的方法进行目标检测.文中利用深层卷积网络固有的多尺度金字塔层次结构,高效地构造特征金字塔.文章提出了FPN--一种具有横向连接的自顶向下的结构,来构建所有尺度上的高级语义特征映射. 网络结构 下图展示了几种不同的利用特征的方式:(a)为图像金字塔,就是对图像resize

[论文理解]Region-Based Convolutional Networks for Accurate Object Detection and Segmentation

Region-Based Convolutional Networks for Accurate Object Detection and Segmentation 概括 这是一篇2016年的目标检测的文章,也是一篇比较经典的目标检测的文章.作者介绍到,现在表现最好的方法非常的复杂,而本文的方法,简单又容易理解,并且不需要大量的训练集. 文章的大致脉络如图. 产生region proposal 文章提到了滑窗的方法,由于滑窗的方法缺点非常明显,就是每次只能检测一个aspect ratio,所以确

论文: Feature Pyramid Networks for Object Detection

论文阅读: Feature Pyramid Networks for Object Detection Feature Pyramid 是提取图像特征领域的很重要的概念.在深度学习领域没有被提及是因为目前深度学习仍然受到计算量的限制. 本论文根据不同的feature maps给出了 Feature Pyramid Network,因为 Featrue Pyramid的尺度不变性,可以有效的解决Object Detection 中的目标物体不一致大小的问题. 熟悉图像处理的都知道 sift 算法,

【Network Architecture】Feature Pyramid Networks for Object Detection(FPN)论文解析(转)

目录 0. 前言 1. 博客一 2.. 博客二 0. 前言 ??这篇论文提出了一种新的特征融合方式来解决多尺度问题, 感觉挺有创新性的, 如果需要与其他网络进行拼接,还是需要再回到原文看一下细节.这里转了两篇比较好的博客作为备忘. 1. 博客一 这篇论文是CVPR2017年的文章,采用特征金字塔做目标检测,有许多亮点,特来分享. 论文:feature pyramid networks for object detection 论文链接:https://arxiv.org/abs/1612.031

Acquistion Location Confidence for accurate object detection

Acquistion Location Confidence for accurate object detection 本论文主要是解决一下两个问题: 1.分类得分高的预测框与IOU不匹配,(我猜应该是训练数据集导致的) 2.基于回归的边框修正是非单调的,缺乏可解释性. 贡献点 IoU-guided NMS Optimization refine PRpooling 1.IoU-guided NMS (1)传统 NMS :  根据边界框的分类置信度排序,每次选择cls score最大的框,并对

【论文笔记】A Review on Deep Learning Techniques Applied to Semantic Segmentation

A Review on Deep Learning Techniques Applied to Semantic Segmentation 2018-02-22  10:38:12   1. Introduction: 语义分割是计算机视觉当中非常重要的一个课题,其广泛的应用于各种类型的数据,如:2D image,video,and even 3D or volumetric data. 最近基于 deep learning 的方法,取得了非常巨大的进展,在语义分割上也是遥遥领先于传统算法. 本

Parallel Feature Pyramid Network for Object Detection

ECCV2018 总结: 文章借鉴了SPP的思想并通过MSCA(multi-scale context aggregation)模块进行特征融合从而提出PFPNet(Parallel Feature Pyramid Network)算法来提升目标检测的效果. 1.使用spp模块通过扩大网络宽度而不是增加深度来生成金字塔形特征图 2.提出msca模块,有效地结合了大不相同规模的上下文信息 3.效果好:82.3% (Pascal VOC 2007), 80.3% (PASCAL VOC 2012),