R-CNN论文翻译——用于精确物体定位和语义分割的丰富特征层次结构

原文地址

我对深度学习应用于物体检测的开山之作R-CNN的论文进行了主要部分的翻译工作,R-CNN通过引入CNN让物体检测的性能水平上升了一个档次,但该文的想法比较自然原始,估计作者在写作的过程中已经意识到这个问题,所以文中也对未来的改进提出了些许的想法,未来我将继续翻译SPPNet、fast-RCNN、faster-RCNN、mask-RCNN等一系列物体定位和语义分割领域的重要论文,主要作者都是Ross Girshick和Kaiming He。

用于精确物体定位和语义分割的丰富特征层次结构

Rich feature hierarchies for accurate object detection and semantic segmentation

Ross Girshick      Jeff Donahue      Trevor Darrell     Jitendra Malik

UC Berkeley

摘要

过去几年,在权威的PASCAL VOC数据集上,物体定位的性能已经达到一个稳定水平。表现最好的方法都是融合了多个低层次图像特征和高层次的上下文环境的复杂系统。本文提出一种简单的可扩展的检测算法,可以将VOC2012上期望平均精度的最好结果明显提升30%以上——达到了53.3%。我们的方法结合了两个关键因素:(1) 将大型卷积神经网络(CNNs)应用于自底向上区域推荐以定位和分割物体;(2)当标签训练数据不足时,先针对辅助任务进行有监督预训练,再进行特定任务的调优,就可以产生明显的性能提升。由于我们结合了区域推荐和CNNs,该方法被称为R-CNN:Regions with CNN features。我们对比了R-CNN和OverFeat,Overfeat是最近被提出的一个机遇类CNN架构的滑动窗口检测器,发现R-CNN在ILSVRC2013检测数据集上面的表现明显优于OverFeat。整个系统的源码在:https://people.eecs.berkeley.edu/~rbg/rcnn(译者注:已失效,新地址:https://github.com/rbgirshick/rcnn)。

继续阅读(最佳阅读体验)

时间: 2024-10-09 00:29:39

R-CNN论文翻译——用于精确物体定位和语义分割的丰富特征层次结构的相关文章

RCNN论文翻译

用于目标检测和语义分割的丰富特征层次结构的提取 1.摘要 过去几年,在权威数据集PASCAL上,物体检测的效果已经达到一个稳定水平.效果最好的方法是融合了多种图像低维特征和高维上下文环境的复杂结合系统.在这篇论文里,我们提出了一种简单并且可扩展的检测算法,可以将mAP在VOC2012最好结果的基础上提高30%以上,也就是达到了53.3%.我们的方法结合了两个关键的因素: 为了实现目标检测和语义分割,将大型卷积神经网络用于图像的候选区域. 由于带标签数据稀少,我们先针对辅助任务使用了监督性的预训练

论文翻译:XNOR-Net: ImageNet Classification Using BinaryConvolutional Neural Networks

目录 Abstract 1 Introduction 2 Related Work 3 Binary Convolutional Neural Network 3.1 Binary-Weight-Networks 3.2 XNOR-Networks 4 Experiments 4.1 Efficiency Analysis 4.2 Image Classification 4.3 Ablation Studies 5 Conclusion 参考资料 论文地址:http://ai2-website

Mesh R-CNN 论文翻译(原理部分)

毕设做Mesh R-CNN的实现,在此翻译一下原论文.原论文https://arxiv.org/pdf/1906.02739.pdf. 摘要 二维感知的快速发展使得系统能够准确地检测真实世界图像中的物体.然而,这些系统在2D中进行预测,却忽略了世界的3D结构.与此同时,三维形状预测的进展主要集中在合成基准(synthetic benchmarks)和孤立目标(isolated objects).我们结合这两个领域的进步.我们提出了一个能够检测真实世界图像中的物体并生成一个给出该物体的完整三维形状

【论文翻译】SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation

Segnet: 一种用于图像分割的深度卷积编码-解码架构 摘要 我们展示了一种新奇的有实践意义的深度全卷积神经网络结构,用于逐个像素的语义分割,并命名为SegNet.核心的可训练的分割引擎包含一个编码网络,和一个对应的解码网络,并跟随着一个像素级别的分类层.编码器网络的架构在拓扑上与VGG16网络中的13个卷积层相同.解码网络的角色是映射低分辨率的编码后的特征图到输入分辨率的特征图.具体地,解码器使用在相应编码器的最大合并步骤中计算的池化索引来执行非线性上采样.这消除了上采样的学习需要.上采样后

[Berkeley]弹性分布式数据集RDD的介绍(RDD: A Fault-Tolerant Abstraction for In-Memory Cluster Computing 论文翻译)

摘要: 本文提出了分布式内存抽象的概念--弹性分布式数据集(RDD,Resilient Distributed Datasets).它同意开发者在大型集群上运行基于内存的计算.RDD适用于两种应用,而现有的数据流系统对这两种应用的处理并不高效:一是迭代式算法,这在图应用和机器学习领域非经常见.二是交互式数据挖掘工具.这两种情况下.将数据保存在内存中可以极大地提高性能.为了有效地实现容错,RDD提供了一种高度受限的共享内存,即RDD在共享状态的时候是基于粗粒度的转换而不是细粒度的更新(换句话说就是

Fully Convolutional Networks for semantic Segmentation(深度学习经典论文翻译)

摘要 卷积网络在特征分层领域是非常强大的视觉模型.我们证明了经过端到端.像素到像素训练的卷积网络超过语义分割中最先进的技术.我们的核心观点是建立"全卷积"网络,输入任意尺寸,经过有效的推理和学习产生相应尺寸的输出.我们定义并指定全卷积网络的空间,解释它们在空间范围内dense prediction任务(预测每个像素所属的类别)和获取与先验模型联系的应用.我们改编当前的分类网络(AlexNet [22] ,the VGG net [34] , and GoogLeNet [35] )到完

深度学习论文翻译解析(一):YOLOv3: An Incremental Improvement

原标题: YOLOv3: An Incremental Improvement 原作者: Joseph Redmon Ali Farhadi YOLO官网:YOLO: Real-Time Object Detection https://pjreddie.com/darknet/yolo/ 论文链接:https://pjreddie.com/media/files/papers/YOLOv3.pdf YOLOv3论文地址:https://arxiv.org/abs/1804.02767 小编是一

Single Shot MultiBox Detector论文翻译【修改】

这几天读了SSD论文的原理部分,看了别人的翻译,发现很多应该都是google直接翻译过来的,有些地方读的不是很通顺,自己就在自己的理解和搜索的基础上对我看的那篇翻译做了一些修改.[原文地址:http://noahsnail.com/2017/12/11/2017-12-11-Single%20Shot%20MultiBox%20Detector%E8%AE%BA%E6%96%87%E7%BF%BB%E8%AF%91%E2%80%94%E2%80%94%E4%B8%AD%E8%8B%B1%E6%9

分布式系统领域经典论文翻译集

分布式领域论文译序 sql&nosql年代记 SMAQ:海量数据的存储计算和查询 一.google论文系列 1.      google系列论文译序 2.      The anatomy of a large-scale hypertextual Web search engine (译 zz) 3.      web search for a planet :the google cluster architecture(译) 4.      GFS:google文件系统 (译) 5.