RCNN,Fast RCNN,Faster RCNN 的前生今世:(2)R-CNN

Region CNN(RCNN)可以说是利用深度学习进行目标检测的开山之作。作者Ross Girshick多次在PASCAL VOC的目标检测竞赛中折桂,2010年更带领团队获得终身成就奖,如今供职于Facebook旗下的FAIR。 
这篇文章思路简洁,在DPM方法多年平台期后,效果提高显著。包括本文在内的一系列目标检测算法:RCNN,Fast RCNNFaster RCNN代表当下目标检测的前沿水平,在github都给出了基于Caffe的源码

思想

本文解决了目标检测中的两个关键问题。

问题一:速度

经典的目标检测算法使用滑动窗法依次判断所有可能的区域。本文则预先提取一系列较可能是物体的候选区域,之后仅在这些候选区域上提取特征,进行判断。

问题二:训练集

经典的目标检测算法在区域中提取人工设定的特征(Haar,HOG)。本文则需要训练深度网络进行特征提取。可供使用的有两个数据库: 
一个较大的识别库(ImageNet ILSVC 2012):标定每张图片中物体的类别。一千万图像,1000类。 
一个较小的检测库(PASCAL VOC 2007):标定每张图片中,物体的类别和位置。一万图像,20类。 
本文使用识别库进行预训练,而后用检测库调优参数。最后在检测库上评测。

流程

RCNN算法分为4个步骤 
- 一张图像生成1K~2K个候选区域 
- 对每个候选区域,使用深度网络提取特征 
- 特征送入每一类的SVM 分类器,判别是否属于该类 
- 使用回归器精细修正候选框位置

候选区域生成

使用了Selective Search1方法从一张图像生成约2000-3000个候选区域。基本思路如下: 
- 使用一种过分割手段,将图像分割成小区域 
- 查看现有小区域,合并可能性最高的两个区域。重复直到整张图像合并成一个区域位置 
- 输出所有曾经存在过的区域,所谓候选区域

候选区域生成和后续步骤相对独立,实际可以使用任意算法进行。

合并规则

优先合并以下四种区域: 
1.颜色(颜色直方图)相近的 
2.纹理(梯度直方图)相近的 
3.合并后总面积小的 
4.合并后,总面积在其BBOX中所占比例大的

其中第三条:保证合并操作的尺度较为均匀,避免一个大区域陆续“吃掉”其他小区域。

例:设有区域a-b-c-d-e-f-g-h。较好的合并方式是:ab-cd-ef-gh -> abcd-efgh -> abcdefgh。 
不好的合并方法是:ab-c-d-e-f-g-h ->abcd-e-f-g-h ->abcdef-gh -> abcdefgh。

这里主要是为了衡量两个区域是否更加“吻合”,其指标是合并后的区域的Bounding Box(能够框住区域的最小矩形(没有旋转))越小,其吻合度越高。

上述四条规则只涉及区域的颜色直方图、纹理直方图、面积和位置。合并后的区域特征可以直接由子区域特征计算而来,速度较快。

多样化与后处理

为尽可能不遗漏候选区域,上述操作在多个颜色空间中同时进行(RGB,HSV,Lab等)。在一个颜色空间中,使用上述四条规则的不同组合进行合并。所有颜色空间与所有规则的全部结果,在去除重复后,都作为候选区域输出。

特征提取

预处理数据

使用深度网络提取特征之前,首先把候选区域归一化成同一尺寸227×227。 
此处有一些细节可做变化:外扩的尺寸大小,形变时是否保持原比例,对框外区域直接截取还是补灰。会轻微影响性能。

网络结构 
基本借鉴Hinton 2012年在Image Net上的分类网络2,略作简化3

此网络提取的特征为4096维,之后送入一个4096->1000的全连接(fc)层进行分类。 
学习率0.01。

训练数据 
使用ILVCR 2012的全部数据进行训练,输入一张图片,输出1000维的类别标号。

调优训练

网络结构 
同样使用上述网络,最后一层换成4096->21的全连接网络。 
学习率0.001,每一个batch包含32个正样本(属于20类)和96个背景。

训练数据 
使用PASCAL VOC 2007的训练集,输入一张图片,输出21维的类别标号,表示20类+背景。 
考察一个候选框和当前图像上所有标定框重叠面积最大的一个。如果重叠比例大于0.5,则认为此候选框为此标定的类别;否则认为此候选框为背景。

类别判断

分类器 
对每一类目标,使用一个线性SVM二类分类器进行判别。输入为深度网络输出的4096维特征,输出是否属于此类。 
由于负样本很多,使用hard negative mining方法。 
正样本 
本类的真值标定框。 
负样本 
考察每一个候选框,如果和本类所有标定框的重叠都小于0.3,认定其为负样本

位置精修

目标检测问题的衡量标准是重叠面积:许多看似准确的检测结果,往往因为候选框不够准确,重叠面积很小。故需要一个位置精修步骤。 回归器对每一类目标,使用一个线性脊回归器进行精修。正则项λ=10000。
输入为深度网络pool5层的4096维特征,输出为xy方向的缩放和平移。 训练样本判定为本类的候选框中,和真值重叠面积大于0.6的候选框。

结果

论文发表的2014年,DPM已经进入瓶颈期,即使使用复杂的特征和结构得到的提升也十分有限。本文将深度学习引入检测领域,一举将PASCAL VOC上的检测率从35.1%提升到53.7%。 
本文的前两个步骤(候选区域提取+特征提取)与待检测类别无关,可以在不同类之间共用。这两步在GPU上约需13秒。 
同时检测多类时,需要倍增的只有后两步骤(判别+精修),都是简单的线性运算,速度很快。这两步对于100K类别只需10秒。

原文地址:https://www.cnblogs.com/Libo-Master/p/8244664.html

时间: 2025-01-21 20:21:31

RCNN,Fast RCNN,Faster RCNN 的前生今世:(2)R-CNN的相关文章

HBase GC的前生今世 - 身世篇

网易视频云是网易倾力打造的一款基于云计算的分布式多媒体处理集群和专业音视频技术,提供稳定流畅.低时延.高并发的视频直播.录制.存储.转码及点播等音视频的PAAS服务,在线教育.远程医疗.娱乐秀场.在线金融等各行业及企业用户只需经过简单的开发即可打造在线音视频平台.现在,网易视频云的技术专家给大家分享一则技术文:HBase GC的前生今世 - 身世篇. 在之前的HBase BlockCache系列文章中已经简单提到:使用LRUBlockCache缓存机制会因为CMS GC策略导致内存碎片过多,从而

区块链的前生今世

今晚九点公开课直播为大家讲解区块链的前生今世,参与方式在文章底部. 目录 历史与现状 比特币与区块链 智能合约与以太坊 币圈与链圈 主讲师:PC 2012年接触比特币,炒币.挖矿.量化.做市场 豆瓣.百度.360.第四范式 知乎<面向工资编程> 投身区块链基础设施创业 历史与现状 比特币和区块链出现的历史,就好比是人类在集齐龙珠的过程 龙珠一共有七颗 <货币的非国家化> Merkle Tree 椭圆曲线加密算法 Proof of Work P2P 技术 SHA-256 中本聪 19

Java NIO 的前生今世 之四 NIO Selector 详解

Selector Selector 允许一个单一的线程来操作多个 Channel. 如果我们的应用程序中使用了多个 Channel, 那么使用 Selector 很方便的实现这样的目的, 但是因为在一个线程中使用了多个 Channel, 因此也会造成了每个 Channel 传输效率的降低.使用 Selector 的图解如下: 为了使用 Selector, 我们首先需要将 Channel 注册到 Selector 中, 随后调用 Selector 的 select()方法, 这个方法会阻塞, 直到

V2X的前生今世

1.车联网的发展 第一阶段:局部交通管控 以单点或局部路面交通控制及交通流监测系统为核心,提高局部道理的通行效率: 第二阶段:在线导航/车载娱乐 车-同广域通信,通过车内通信模块与蜂窝通信,实现在线导航,远程诊断与控制.信息娱乐.车辆报警等应用: 第三阶段:辅助驾驶 V2X.V2I短程通信,实现提醒甚至控制车辆避免可能的碰撞等风险,提升车辆安全及交通效率(基本应用集) 第四阶段:自动驾驶 真正实现自动控制.无人驾驶.永无事故,达到人.车.路.环境真正融合,是未来的ITS 当前我们处于第二阶段到第

RCNN,Fast RCNN,Faster RCNN 的前生今世:(3) SPP - Net

SPP-Net是出自2015年发表在IEEE上的论文-<Spatial Pyramid Pooling in Deep ConvolutionalNetworks for Visual Recognition>. 池化空间金字塔的核心是: 1.因为,cnn要求图像固定大小,所以要做crop和warp.是因为会影响FC层的权重训练. 当网络输入的是一张任意大小的图片,这个时候我们可以一直进行卷积.池化,直到网络的倒数几层的时候,也就是我们即将与全连接层连接的时候就需要用到(最大)池化空间金字塔,

RCNN,Fast RCNN,Faster RCNN 的前生今世:(1) Selective Search

Selective Search for Object Recoginition 这篇论文是J.R.R. Uijlings发表在2012 IJCV上的一篇文章,主要介绍了选择性搜索(Selective Search)的方法.物体识别(Object Recognition),在图像中找到确定一个物体,并找出其为具体位置,经过长时间的发展已经有了不少成就.之前的做法主要是基于穷举搜索(Exhaustive Search),选择一个窗口(window)扫描整张图像(image),改变窗口的大小,继续扫

关于http协议前生今世(转自“博客:老李的地下室”)

申明:此博文转自http://www.cnblogs.com/li0803/archive/2008/11/03/1324746.html(非原创) Author :Jeffrey 引言 HTTP是一个属于应用层的面向对象的协议,由于其简捷.快速的方式,适用于分布式超媒体信息系统.它于1990年提出,经过几年的使用与发展,得到不断地完善和扩展.目前在WWW中使用的是HTTP/1.0的第六版,HTTP/1.1的规范化工作正在进行之中,而且HTTP-NG(Next Generation of HTT

HTML 5 History API的”前生今世”

原文:An Introduction To The HTML5 History API 译文:关于HTML 5 History API 的介绍 译者:dwqs History是有趣的,不是吗?在之前的HTML版本中,我们对浏览历史记录的操作非常有限.我们可以来回使用可以使用的方法,但这就是一切我们能做的了. 但是,利用HTML 5的History API,我们可以更好的控制浏览器的历史记录了.例如:我们可以添加一条记录到历史记录的列表中,或者在没有刷新时,可以更新地址栏的URL. 为什么介绍Hi

盛京三四线的“前生今世”

传统的批发零售市场经历了几十年的黄金发展期后,由于商品种类数量多.客户群庞大.中间商肆意哄抬商品价格等原因,开始进入停滞不前的状态.由此可见,单一的线下销售模式发展遭遇瓶颈,寻求新的变革迫在眉睫.1999年东北首家IT专业网站-网上三好街应运而生.因为在经营模式上几乎无可借鉴,网站的发展遭遇了很大的阻力.网站内每天都有几千条的信息需要录入,人工录入耗费时间长,且错误率高.为了解决这一问题,网上三好街迎来了第一次升级改版.网站后台内的页面从静止改为动态,入驻的商家可以自行录入产品的信息.第二次的改