Faster R-CNN 的 RPN 是啥子?

?

Faster R-CNN,由两个模块组成:

第一个模块是深度全卷积网络 RPN,用于 region proposal;
第二个模块是Fast R-CNN检测器,它使用了RPN产生的region proposal进行物体检测。

通过将 region proposal 融入 CNN 网络中, 整个系统是一个单一的,统一的对象检测网络。 具体为使用 RPN 的技术代替之前 Selection Search, 完成 region proposal, 那么 RPN 需要完成两个任务:

  1. 判断 anchors 中是否包含将要检测的 K 类物体(是或者否), 这里只是判断是否包含物体, 而没有判断到底是什么物体, 即 objectness proposal
  2. 提出 anchor 对应的 bounding box 的坐标, 即 region proposal

?
下面不标明都是在说训练 RPN 的事!!!
下面不标明都是在说训练 RPN 的事!!!
下面不标明都是在说训练 RPN 的事!!!

那么就来具体看看 RPN 是什么?

Region Proposal Network

我对 RPN 网络的理解开始是只看最后 anchor 滑动 3x3卷积 + 2个1x1卷积层, 其实应该将之前所有卷积层算上才算是完整的 RPN, 以这种视角(把它当成一个单独的部分来看)来看 RPN, 输入输出就如下了,

输入: 整张图片
输出: objectness classification + bounding box regression

$ \color{red}{\bf来说说 RPN 中关键概念 \space anchor}$

anchor 其实就是预训练网络卷积层的最后一层 feature map 上的一个像素,以该 anchor 为中心,可以生成 k 种 anchor boxes(理解为 region proposal 就好了); 每个 anchor box 对应有一组缩放比例( scale)和宽高比(aspect). 论文中共使用 3 种 scale(128, 256, 512), 3 种 aspect(1:2, 1:1, 2:1), 所以每个 anchor 位置产生 9 个 anchor boxs.

?

为何要提出 anchor呢?

貌似与 GPU 的运算效率有关, 这个不懂了. 来说说 anchor 的优点: 它只依赖与单个 scale 的 images 和 feature map, 滑动窗口也只使用一个尺寸的 filter. 不过却能解决 multiple scales and sizes的问题.

为何选择 128 ,256, 512? 论文中用到的网络如 ZFNet 在最后一层卷积层的 feature map 上的一个像素的感受野就有 171, filter size 3x3, 3x171=513. 而且论文中提到: 我们的算法允许比底层接受域更大的预测。 这样的预测并非不可能 - 如果只有对象的中间部分是可见的,那么仍然可以大致推断出对象的范围。

在预训练网络卷积层的最后一层 feature map 上进行 3x3 的卷积, anchor 就位于卷积核的中心位置. 记住这里 anchor boxes 坐标对应的就是在图片上的坐标, 而不是在最后一层卷积层 feature map 上的坐标.

anchor box 这么简单粗暴, 为什么有效?

列举了这么多, 相当于穷举了吧, 比如论文中所说,由于最后一层的全局 stride 为16, 那么100x600 的图片就能生成大约 60x40x9≈20000个 anchor boxes). 当然列举了这么多 anchor boxes, 这region proposal 也太粗糙啊, 总不能就这样把这么多的质量层次不齐 anchor boxes 都送给 Fast R-CNN来检测吧. 那该怎么剔除质量不好的呢? 这就是后面 RPN 的 bounding box regression 和 objectness classification 要解决的事情:)

有必要先说说 RPN 的 objectness classification 和 bounding box regression 有什么用?

一句话就是 "少生优育"

bounding box regression: 调整输入的 anchor boxer 的坐标, 使它更接近真实值, 就是一个 bbox regression, 输出称为 RPN proposal, 或者 RoIs. 提高 anchor boxer 的质量

objectness classification: 一些 RPN proposal(anchor boxer经过)可能相互重叠度很高, 为了减少冗余, 通过objectness classification的输出的分数score 对这些RPN proposal做 NMS(non-maximum suppression), 论文中设置threshold 为 0.7, 只保留 threshold < 0.7 的RPN proposal, 减少 anchor boxes 的数量

RPN 的任务是什么?

训练 RPN 网络来选择那些比较好的 anchor boxes.

因为现在我们要训练 RPN, 我们只提出了 anchor boxer, 却不知道这些 anchor boxes是不是包含物体, 就是没有标签啊! 那么问题来了? objectness classification 分类时没有标签啊. 怎么办?

办法就是使用 image 检测用 gt-bbox(ground-truth bounding box), 注意这里我们只是检测图片中有没有物体, 而不判断是那类物体.

positive anchors: 与任意 gt-box 的 IoU > 0.7, 或者具有最大 IoU, 即标记为1, 就是包含物体, 当然该 gt-box 就是 anchor boxes bounding box regression任务对应的标签
negative anchors: 与任意 gt-box 的 IoU < 0.3, 即标记为 negative anchor, 标记为0, 就是不包含物体, 是背景, 从后面的损失函数知道, 背景不参与回归损失函数.

IoU 位于 positive anchors, negative anchors 之间 anchor boxer 背景和物体掺杂, 的对于训练目标没有贡献, 不使用.

bounding box regression && objectness classification

注意一点, 每个 regressor 只负责一个 , 不与它 regressor共享权重, 所以需要训练 k 个 regressor.

其他不多说, 只贴贴公式

?
?

?

  1. \(p^*_i\) 为一个 batch 中的第 i 个 anchor box 的真实标签, \(p_i\) 为分类器预测概率, 如果是positive anchor, \(P_i^*\)为1, 否则为0.
  2. $L_{reg}(t_i, t_i^) = smooth_{L1}(t_i-t_i^), $
  3. \(p^*_iL_{reg}\) 表示regression loss 只会被 positive anchor 激活.
  4. anchor boxes 的坐标表示为 (x, y, w ,h), (x, y) 为 box 的中心坐标.
  5. \(x,\space x_a, \space x^*\) 分别代表 bbox regressor 的预测坐标, anchor box 的坐标, 和 anchor box 对应的 gt-box 坐标.

训练

交替训练: 在这个解决方案中,我们首先训练 RPN,并使用这些 proposal 来训练 Fast R-CNN。 由 Fast R-CNN 调节的网络然后用于初始化 RPN,并且该过程被重复。
细节:

re-size image 最短边为 600 像素
total stride for ZFNet, VGGNet 16 pixels

跨图像边缘的 anchor boxes 处理

跨越图像边界的 anchor boxes 需要小心处理。 在训练期间,忽略了所有的跨界 anchor boxes,所以他们不会影响损失函数。 对于典型的1000×600图像,总共将有大约20000个(≈60×40×9)anchor boxes。 在忽略跨界锚点的情况下,每个图像有大约 6000 个 anchor boxes 用于训练。 如果跨界异常值在训练中不被忽略,它们会引入大的难以纠正误差项的,并且训练不会收敛。 然而,在测试过程中,我们仍然将完全卷积RPN应用于整个图像。 这可能会生成跨边界anchor boxes,我们将其剪切到图像边界(即将坐标限制在图片坐标内)。

一些实验总结

?

RPN+FRCN( ZFNet), mAP=59.9
RPN+FRCN( VGGNet), mAP=69.9

  1. Faster RCNN 使用 RPN 代替 SS 进行 region proposal, 极大的加快了检测速度, RPN 提出region proposal 的时间相比较 SS 来说,(1.5s -> 0.01s). 而且性能还要更好
  2. NMS 不会降低检测性能. 通过 NMS 得到 300 个 proposal的测试mAP为 55.1%, 使用top-ranked 6000个 proposal的mAP为 55.2%, 从而说明经过NMS之后的 top ranked proposal都是很精确的.
  3. 移除 RPN 的 classification(cls) 的话(自然没法做 NMS, NMS 就是依据cls 来做的), 当 proposal 很少时, 精确率下降很大, N = 100时, mAP 为44.6%, 这说明了cls 越高的 proposal 的准确性越高.
  4. 移除 RPN 的 bbox regression(reg)的话, mAP 下降到 52.1% 说明了多 scale, 多 aspect 的 anchor boxes 并不足以应对精确检测, regressed box bounds 可以产生高质量的 proposals
  5. 对于超参 scale, aspect 敏感性如下

?

预测过程

  1. 图片经过 RPN 产生anchor boxes
  2. anchor boxes 通过 bounding box regressor 调整位置
  3. 使用 objectness classification 分类器的打分进行 NMS, 减少数量
  4. 将 region proposal 交给 fast rcnn 检测.

原文地址:https://www.cnblogs.com/nowgood/p/Faster-RCNN.html

时间: 2024-08-02 15:21:12

Faster R-CNN 的 RPN 是啥子?的相关文章

Faster RCNN学习记录

<Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks>Shaoqing Ren, Kaiming He, Ross Girshick, Jian Sun                                           ——学习资料记录(Simon John) 文章拟解决问题(Towards Real-Time) SPP net和Fast R-CNN提取proposal(

基于深度学习的目标检测

普通的深度学习监督算法主要是用来做分类,如图1(1)所示,分类的目标是要识别出图中所示是一只猫.而在ILSVRC(ImageNet Large Scale Visual Recognition Challenge)竞赛以及实际的应用中,还包括目标定位和目标检测等任务.其中目标定位是不仅仅要识别出来是什么物体(即分类),而且还要预测物体的位置,位置一般用边框(bounding box)标记,如图1(2)所示.而目标检测实质是多目标的定位,即要在图片中定位多个目标物体,包括分类和定位.比如对图1(3

awesome scene text

awesome scene text scene text recognition  scene text spotter  scene text detection Awesome Scene text IncepText: A New Inception-Text Module with Deformable PSROI Pooling for Multi-Oriented Scene Text Detection mutli-oriented text Abstract Incidenta

关于目标检测

目标检测 Region based network RCNN 一张图像生成1K~2K个候选区域 对每个候选区域,使用深度网络提取特征 特征送入每一类的SVM 分类器,判别是否属于该类 使用回归器精细修正候选框位置 Selective Search 候选框生成 传统的生成方法,就是检测就是不同大小的滑动窗进行穷举,然后使用分类器判断哪个滑动窗是目标.而SS根据颜色,纹理之类的信息去把图片划分成不同区域可以相对于穷举搜索大量减少计算量,是简单的搜索剪枝思路.通过简单的区域划分算法,将图片划分成很多小

4. 基于深度学习的目标检测算法的综述(转)

4. 基于深度学习的目标检测算法的综述(转) 原文链接:https://www.cnblogs.com/zyly/p/9250195.html 目录 一 相关研究 1.选择性搜索(Selective Search) 2.OverFeat 二.基于区域提名的方法 1.R-CNN 2.SPP-Net 3.Fast R-CNN 4.Faster R-CNN 5.R-FCN 三 端对端的方法 1.YOLO 2.SSD 四 总结 在前面几节中,我们已经介绍了什么是目标检测,以及如何进行目标检测,还提及了滑

CTPN网络理解

本文主要对常用的文本检测模型算法进行总结及分析,有的模型笔者切实run过,有的是通过论文及相关代码的分析,如有错误,请不吝指正. 一下进行各个模型的详细解析 CTPN 详解 代码链接:https://github.com/xiaofengShi/CHINESE-OCR CTPN是目前应用非常广泛的印刷体文本检测模型算法. CTPN由fasterrcnn改进而来,可以看下二者的异同 网络结构 FasterRcnn CTPN basenet Vgg16 ,Vgg19,resnet Vgg16,也可以

一篇文章看懂物体检测的发展脉络 转

转 https://zhuanlan.zhihu.com/p/28399320 第一,什么是物体检测,如何去评价一个物体里系统的好坏. 第二,物体检测整个的框架是怎么样的?它一般包含了图像的分类和物体检测的定位. 第三,介绍物体检测的历史发展,从传统的人工设计的一些图像特征加上分类器到现在的深度学习. ▼ What's Computer Vision 介绍物体检测之前,我们首先要知道什么是计算机视觉.计算机视觉是计算机科学的一个分支领域,旨在构造智能算法和程序,来"观察"这个世界.比如

image caption:A Hierarchical Approach for Generating Descriptive Image Paragraphs

1.引言 本文的主要注意力在为图片用段落描述,该任务不同于用一句话描述图片.首先作者回顾了相关研究背景.用句子描述图片往往所含的信息有限,目前主要的方法为排序检索.模板套用.直接生成,第三种是目前的研究热点,且第三种方法又演变成一个dense caption的任务,也就是获取图片的多个重要区域,为每个区域用一句话描述,然后结合所有的句子,形成dense caption.这个也有缺点,就是句子之间不连贯.本文提出一种模型,利用物体识别将图片划分几个区域,同时利用层次RNN将段落划分为几个句子,形成

目标检测之YOLO V1

前面介绍的R-CNN系的目标检测采用的思路是:首先在图像上提取一系列的候选区域,然后将候选区域输入到网络中修正候选区域的边框以定位目标,对候选区域进行分类以识别.虽然,在Faster R-CNN中利用RPN网络将候选区域的提取以放到了CNN中,实现了end-to-end的训练,但是其本质上仍然是提取先提取候选区域,然后对候选区域识别,修正候选区域的边框位置.这称为tow-stage的方法,虽然在精度已经很高了,但是其速度却不是很好.造成速度不好的主要原因就是候选区域的提取,这就需要一种网络能够直