【Paper Reading】R-CNN(V5)论文解读

R-CNN论文:Rich feature hierarchies for accurate object detection and semantic segmentation

用于精确目标检测和语义分割的丰富特征层次结构
作者:Ross Girshick, Jeff Donahue, Trevor Darrell, Jitendra Malik,UC Berkeley(加州大学伯克利分校)
一作者Ross Girshick的个人首页:http://www.rossgirshick.info/,有其许多论文和代码,也包括本文的[代码](https://github.com/rbgirshick/rcnn)、幻灯片(slides)、海报(poster)等。文章的工作量和成果的确让人佩服,幻灯片讲的很详细,海报也炫酷。

关键词:accurate object detection、semantic segmentation

引用格式:Girshick, R.,Donahue, J.,Darrell, T.,Malik, J.. Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation\[P\]. Computer Vision and Pattern Recognition (CVPR), 2014 IEEE Conference on,2014.

前言

参考[学者]对R-CNN的前言介绍:overfeat是用深度学习的方法做目标检测,但RCNN是第一个可以真正可以工业级应用的解决方案。可以说改变了目标检测领域的主要研究思路,紧随其后的系列文章:Fast-RCNN、Faster-RCNN、Mask RCNN都沿袭R-CNN的思路。在2013年11月发布了第一版本,一直到2014年10月共计发布5个版本,2014年发布在CVPR,CVPR是IEEE Conference on Computer Vision and Pattern Recognition的缩写,即IEEE国际计算机视觉与模式识别会议。该会议是由IEEE举办的计算机视觉和模式识别领域的顶级会议。近年来每年有约1500名参加者,收录的论文数量一般300篇左右。会议每年都会有固定的研讨主题,而每一年都会有公司赞助该会议并获得在会场展示的机会。三大顶级会议有CVPR、ICCV和ECCV。

引用下图区分计算机视觉的任务:

classify:识别目标类别
localization:单个目标,标出目标位置
detection:多个目标,标出目标位置,识别类别
segementation:目标分割


0 Abstract

Object detection performance, as measured on the canonical PASCAL VOC dataset, has plateaued in the last few years. The best-performing methods are complex ensemble systems that typically combine multiple low-level image features with high-level context. In this paper, we propose a simple and scalable detection algorithm that improves mean average precision (mAP) by more than 30% relative to the previous best result on VOC 2012---achieving a mAP of 53.3%. Our approach combines two key insights: (1) one can apply high-capacity convolutional neural networks (CNNs) to bottom-up region proposals in order to localize and segment objects and (2) when labeled training data is scarce, supervised pre-training for an auxiliary task, followed by domain-specific fine-tuning, yields a significant performance boost. Since we combine region proposals with CNNs, we call our method R-CNN: Regions with CNN features. We also compare R-CNN to OverFeat, a recently proposed sliding-window detector based on a similar CNN architecture. We find that R-CNN outperforms OverFeat by a large margin on the 200-class ILSVRC2013 detection dataset. Source code for the complete system is available at this http URL.

## 地方

$$f=\sum_{t=1}^{T}\left(f_{\mathbf{S}}^{t}+f_{\mathbf{L}}^{t}\right)$$

dfads

原文地址:https://www.cnblogs.com/Ireland/p/12333789.html

时间: 2024-10-09 02:58:51

【Paper Reading】R-CNN(V5)论文解读的相关文章

R-CNN 论文解读及个人理解(转)

R-CNN 论文解读及个人理解(转) https://blog.csdn.net/briblue/article/details/82012575 本篇论文的题目是 <Rich feature hierarchies for accurate oject detection and semantic segmentation>,翻译过来就是针对高准确度的目标检测与语义分割的多特征层级,通俗地来讲就是一个用来做目标检测和语义分割的神经网络. 本文作者:Ross Girshick,JeffDona

How to Write and Publish a Scientific Paper: 7th Edition(科技论文写作与发表教程)(11.04更新)

How to Write and Publish a Scientific Paper: 7th Edition(科技论文写作与发表教程)(11.04更新) 重要通知: 最近开题报告已差不多告一段落,准备发力写论文了.我会根据自己写论文的实践,从找期刊到发表的过程记录下来.记录的过程从第6章开始,我会用不同颜色的自己标注出来,其顺序大体和<科技论文写作与发表教程>的目录相似.欢迎大家讨论拍砖. 目 录 第一部分 一些基本常识 第1章 什么是科研写作第2章 历史回顾第3章 走进科技写作第4章 何

Paper Reading: Stereo DSO

开篇第一篇就写一个paper reading吧,用markdown+vim写东西切换中英文挺麻烦的,有些就偷懒都用英文写了. Stereo DSO: Large-Scale Direct Sparse Visual Odometry with Stereo Cameras Abstract Optimization objectives: intrinsic/extrinsic parameters of all keyframes all selected pixels' depth Inte

CVPR2019论文解读:单眼提升2D检测到6D姿势和度量形状

CVPR2019论文解读:单眼提升2D检测到6D姿势和度量形状 ROI-10D: Monocular Lifting of 2D Detection to 6D Pose and Metric Shape 论文链接地址:https://arxiv.org/pdf/1812.02781.pdf 摘要内容: 本文提供了基于端到端单目3D目标检测和度量形状检索的深度学习方法.为了在3D中提升2D检测,定位,以及缩放,提出了一种新的loss函数.不同于各自独立的优化这些数量,3D示例允许适当的度量box

[论文解读]CNN网络可视化——Visualizing and Understanding Convolutional Networks

概述 虽然CNN深度卷积网络在图像识别等领域取得的效果显著,但是目前为止人们对于CNN为什么能取得如此好的效果却无法解释,也无法提出有效的网络提升策略.利用本文的反卷积可视化方法,作者发现了AlexNet的一些问题,并在AlexNet基础上做了一些改进,使得网络达到了比AlexNet更好的效果.同时,作者用"消融方法"(ablation study)分析了图片各区域对网络分类的影响(通俗地说,"消融方法"就是去除图片中某些区域,分析网络的性能). 反卷积神经网络(D

Features for Multi-Target Multi-Camera Tracking and Re-identification论文解读

解读一:Features for Multi-Target Multi-Camera Tracking and Re-identification Abstract MTMCT:从多个摄像头采集的视频中跟踪多个人. Re-id:从一系列图片中检索与一张被查询图片相似的图片. 我们用CNN为MTMCT和Reid学习好的特征. 贡献包括: ①为训练设计的一个自适应权重的三重损失 ②一种新的艰难身份挖掘技术 我们测验了好的re-id和好的MTMCT分数之间的相关性,并且做了消融研究,以阐明系统主要成分

Paper Reading:RCNN-SPP-Fast RCNN-Faster RCNN

本文对基于RCNN框架的几个模型进行介绍和总结. [目标检测][base64str0] RCNN 论文:Rich feature hierarchies for accurate object detection and semantic segmentation 发表时间:2014 发表作者:(加州大学伯克利分校)Ross Girshick 发表刊物/会议:CVPR 本文具有很多比较重要的意义. 1.在 Pascal VOC 2012 的数据集上,能够将目标检测的验证指标 mAP 提升到 53

CVPR2020论文解读:手绘草图卷积网络语义分割

Sketch GCN: Semantic Sketch Segmentation with Graph Convolutional Networks 论文链接:https://arxiv.org/pdf/2003.00678.pdf 摘要 介绍了一种用于手绘草图语义分割和标注的图形卷积神经网络SketchGCN.我们将输入草图视为二维点集,并将笔划结构信息编码为图形节点/边缘表示.为了预测每个点的标签,我们的SketchGCN使用图卷积和全局分支网络结构来提取笔划内和笔划间的特征.SketchG

Paper Reading: Beyond Correlation Filters: Learning Continuous Convolution Operators for Visual Tracking

Beyond Correlation Filters: Learning Continuous Convolution Operators for Visual TrackingECCV 2016  The key point of KCF is the ability to efficiently exploit available negative data by including all shifted versions of a training sample, in anthor w