论文--R-FCN

R-FCN:  Object Detection via Region-based Fully Convolutional Networks

R-FCN 的网络结构:

不同于之前的fast/faster R-CNN的region-based,paper中的new network是shared, fully convolutional 的网络结构。

Paper是奔着节约计算的角度,因为r-cnn 系列的网络结构分为两部分,一部分是Shared Conv层,另一部分是针对region proposal的Conv+FC层,fast RCNN和faster RCNN做的工作是延长Shared Conv,缩小非共享的后面部分。

R-FCN做的是将regional proposal后面的Conv基本转移到Shared Conv部分。 减少Conv计算。

随着网络深度的增加,网络对location的敏感度也越来越低,这就是 translation-invariance。

1, structure

本paper做的跟faster RCNN的区别是:将Conv5层ROI-pooling之后的pooled feature maps ,不要再针对每一个ROI之后再进行Conv计算了。而是,将Conv5层进行fully convolutional layer, 得到 K^2*(c+1) x w x h的feature maps, 然后对该feature map 进行position-sensitive pooling 得到 k x k x (c+1) 大小的score map,之后做 average pooling (voting)得到 (c+1)的vector就可以放进 softmax判断了,所以,feature map后面的不涉及到Conv层,计算量很小。

2, position-sensitive score maps

Position-sensitive score maps: 对最后一层Conv层得到的feature maps,对于每一个wxh 大小的RoI rectangle,一个bin的大小是 w/k * h/k , 最后产生 k^2 个bin,对于 (i,j)个bin,产生score maps的操作公式是:

上面所说的是针对category,而针对bounding boxes,类似,直接将C+1变为4即可, bounding box t = (tx, ty, tw, th)

3, training:

对于每一个ROI,loss是 cross-entropy loss和box regression loss的总和

Training method在本算法中可以很容易采用online hard example mining (OHEM), 对于一张image的N个proposals,选择loss最大的B个proposal进行backpropagation,因为per-RoI的计算量极小可以忽略。

R-FCN的特点:

(1), 所有可以学习的参数都是都是 convolutional 且针对 fully feature maps

(2), RoI-pooling之后的score maps之后的计算没有参数

(3),R-FCN的最后一个Conv层,其channel数跟 类别数C和 spatial grid describing relative positions K 相关,

总结:

(1), R-FCN可以说是faster-RCNN的一个再次升级

(2), 但是R-FCN的position-sensitive scores maps看起来适用性有限,paper也只给出了resnet101的版本而没有vgg或者googlenet作为baseline。

时间: 2024-11-29 07:00:28

论文--R-FCN的相关文章

论文参考文献标准格式

参考文献的类型 参考文献(即引文出处)的类型以单字母方式标识,具体如下: M——专著 C——论文集 N——报纸文章 J——期刊文章 D——学位论文 R——报告 对于不属于上述的文献类型,采用字母“Z”标识. 对于英文参考文献,还应注意以下两点: ①作者姓名采用“姓在前名在后”原则,具体格式是: 姓,名字的首字母. 如: Malcolm Richard Cowley 应为:Cowley, M.R.,如果有两位作者,第一位作者方式不变,&之后第二位作者名字的首字母放在前面,姓放在后面,如:Frank

论文参考文献格式规范【转】

参考文献(即引文出处)的类型以单字母方式标识,具体如下: [M]--专著,著作 [C]--论文集(一般指会议发表的论文续集,及一些专题论文集,如<***大学研究生学术论文集> [N]-- 报纸文章 [J]--期刊文章:发表在期刊上的论文,尽管有时我们看到的是从网上下载的(如知网),但它也是发表在期刊上的,你看到的电子期刊仅是其电子版 [D]--学位论文 :不区分硕士还是博士论文 [R]--报告:一般在标题中会有"关于****的报告"字样 [S]-- 标准 [P]--专利 [

英文参考文献标准格式:论文参考文献格式规范(转载)

也可以在标点.之后加上一个空格,但一定要保证所有的项目空格个数一致一.参考文献的类型 参考文献(即引文出处)的类型以单字母方式标识,具体 如下: [M]--专著,著作 [C]--论文集(一般指会议发表的论文续集,及一些专题论文集,如<***大学研究生学术论文集> [N]-- 报纸文章 [J]--期刊文章:发表在期刊上的论文,尽管有时我们看到的是从网上下载的(如知网),但它也是发表在期刊上的,你看到的电 子期刊仅是其电子版 [D]--学位论文 :不区分硕士还是博士论文 [R]--报告:一般在标题

2015/10/13 算法习题:最大子列和问题

已经正式开始学习数据结构和算法,先学了网易云课堂上的浙江大学的数据结构课,是陈越和何钦铭上的,了解了什么是数据结构和算法后,学习了一些时间空间复杂度分析的技巧,结合之前马虎掌握的学习,先从简单的题目入手学习. 题目是这样的: 给定了一个n个整数组成的序列,求它各个子列中,子列和最大的值. 输入:输入n个整数组成的序列 要求输出最大子列和. 示例: 输入: -2 11 -4 13 -5 -2 输出: 20 做出这题的难度不是很大,至少很容易可以做到暴力求解,然而暴力求解的时间复杂度是很大的. 我用

神经网络模型种类

神经网络模型种类 一般地,CNN的基本结构包括两层,其一为特征提取层,每个神经元的输入与前一层的局部接受域相连,并提取该局部的特征.一旦该局部特征被提取后,它与其它特征间的位置关系也随之确定下来:其二是特征映射层,网络的每个计算层由多个特征映射组成,每个特征映射是一个平面,平面上所有神经元的权值相等.特征映射结构采用影响函数核小的sigmoid函数作为卷积网络的激活函数,使得特征映射具有位移不变性.此外,由于一个映射面上的神经元共享权值,因而减少了网络自由参数的个数.卷积神经网络中的每一个卷积层

数据库技术的发展简史

http://blog.csdn.net/willtongji/article/details/52874627 学习大数据,需要知道"传统"的数据管理技术,了解了数据库管理技术的发展简史,你就知道哪些技术在大数据时代任然有用,以及新技术到底新在哪里~ 数据库系统的研究和开发从20世纪60年代中期开始到现在,几十年过去了,经历三代演变,取得了十分辉煌的成就:造就了C.W. Bachman(巴克曼).E.F.Codd(考特)和J. Gray(格雷)三位图灵奖得主:发展了以数据建模和数据库

awesome scene text

awesome scene text scene text recognition  scene text spotter  scene text detection Awesome Scene text IncepText: A New Inception-Text Module with Deformable PSROI Pooling for Multi-Oriented Scene Text Detection mutli-oriented text Abstract Incidenta

FCN论文阅读记录tips

原文链接:http://101.96.8.164/www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Long_Fully_Convolutional_Networks_2015_CVPR_paper.pdf <Experimental related> (1) whole image training -- patchwise training Sampling in patchwise training can correct

Fully Convolutional Networks for semantic Segmentation(深度学习经典论文翻译)

摘要 卷积网络在特征分层领域是非常强大的视觉模型.我们证明了经过端到端.像素到像素训练的卷积网络超过语义分割中最先进的技术.我们的核心观点是建立"全卷积"网络,输入任意尺寸,经过有效的推理和学习产生相应尺寸的输出.我们定义并指定全卷积网络的空间,解释它们在空间范围内dense prediction任务(预测每个像素所属的类别)和获取与先验模型联系的应用.我们改编当前的分类网络(AlexNet [22] ,the VGG net [34] , and GoogLeNet [35] )到完

论文笔记:Faster R-CNN:Towards Real-Time Object Detection with Region Proposal Networks

文章: http://arxiv.org/abs/1506.01497 源码:坐等.... 目录: Region Proposal Networks Translation-Invariant Anchors A Loss Function for Learning Region Proposals Optimization Sharing Convolutional Features for Region Proposal and Object Detection Implementation