Bounding Box回归

简介

Bounding Box非常重要,在rcnn, fast rcnn, faster rcnn, yolo, r-fcn, ssd,到今年cvpr最新的yolo9000都会用到。
先看图

对于上图,绿色的框表示Ground Truth, 红色的框为Selective Search提取的Region Proposal。那么即便红色的框被分类器识别为飞机,但是由于红色的框定位不准(IoU<0.5),那么这张图相当于没有正确的检测出飞机。 如果我们能对红色的框进行微调, 使得经过微调后的窗口跟Ground Truth 更接近, 这样岂不是定位会更准确。 确实,Bounding-box regression 就是用来微调(注意这个字眼--微调)这个窗口的。

1、边框回归是什么?

对于窗口一般使用四维向量(x, y, w, h)来表示, 分别表示窗口的中心点坐标和宽高(注意这里是中心点,其实都一样)。对于图 2, 红色的框 P 代表原始的Proposal, 绿色的框 G 代表目标的 Ground Truth, 我们的目标是寻找一种关系使得输入原始的窗口 P 经过映射得到一个跟真实窗口 G 更接近的回归窗口G。

边框回归的目的既是:给定(Px, Py, Pw, Ph)寻找一种映射f,使得f(Px,Py,Pw,Ph) = (Gx,Gy,Gw,Gh)并且(Gx,Gy,Gw,Gh)约等于f。

做边框回归

那么经过何种变换才能从图 2 中的窗口 P 变为窗口G呢?比较简单的思路就是:平移加尺度放缩。
第一步:先做平移

其中
第二步:再做尺度缩放

其中

边框回归学习的不是最终的G估计值,而是
下一步就是设计算法得四个映射

线性回归就是给定输入的特征向量 X, 学习一组参数 W, 使得经过线性回归后的值跟真实值 Y(Ground Truth)非常接近. 即Y≈WX 。 那么 Bounding-box 中我们的输入以及输出分别是什么呢?

输入:
其实真正的输入是这个窗口对应的 CNN 特征,也就是 R-CNN 中的 Pool5 feature(特征向量)。(注:训练阶段输入还包括 Ground Truth, 也就是下边提到的t?=(tx,ty,tw,th))

输出:
这四个值应该是经过 Ground Truth 和 Proposal 计算得到的真正需要的平移量(tx,ty) 和尺度缩放(tw,th) 。
这也就是 R-CNN 中的(6)~(9):

目标函数为是输入Proposal的特征向量,W*是要学习的参数,d(p)是预测值, 我们要让预测值跟真实值t?=(tx,ty,tw,th)差距最小, 得到损失函数为:
所以结果就很明显了,t*是label而w是权值,fai是输入,它们来做一个回归,利用梯度下降法或者最小二乘法就可以得到 w?。

原文地址:https://www.cnblogs.com/liuboblog/p/11735618.html

时间: 2024-11-08 21:38:28

Bounding Box回归的相关文章

目标检测中bounding box regression

https://zhuanlan.zhihu.com/p/26938549 RCNN实际包含两个子步骤,一是对上一步的输出向量进行分类(需要根据特征训练分类器):二是通过边界回归(bounding-box regression) 得到精确的目标区域,由于实际目标会产生多个子区域,旨在对完成分类的前景目标进行精确的定位与合并,避免多个检出. fast rcnn中SoftmaxLoss代替了SVM,证明了softmax比SVM更好的效果,SmoothL1Loss取代Bouding box回归.将分类

Torch 两个矩形框重叠面积的计算 (IoU between tow bounding box)

Torch 两个矩形框重叠面积的计算 (IoU between tow bounding box) 1 function DecideOberlap(BBox_x1, BBox_y1, BBox_x2, BBox_y2, BBox_gt_x1, BBox_gt_y1, BBox_gt_x2, BBox_gt_y2) 2 3 x1 = BBox_x1; 4 y1 = BBox_y1; 5 width1 = BBox_x2 - BBox_x1; 6 height1 = BBox_y2 - BBox_

基于Cocos2d-x的2D空间中的OBB(Orient Bounding Box)碰撞检测算法

基于Cocos2d-x的2D空间中的OBB(Orient Bounding Box)碰撞检测算法 尊重原创:http://cn.cocos2d-x.org/tutorial/show?id=1577

Fast algorithm to compute minimum volume oriented bounding box

Computing minimum volume bounding box is a hard problem in computer science. Exact algorithm costs O(n3) time complexity.However, for lots of applications an approximation of the minimum volume oriented bounding box is acceptable and already accurate

3D空间中的AABB(轴向平行包围盒, Aixe align bounding box)的求法

引言 在前面的一篇文章中讲述了如何通过模型的顶点来求的模型的包围球,并且还讲述了基本包围体除了包围球之外,还有AABB包围盒.在这一章,将讲述如何根据模型的坐标求得它的AABB盒. 表示方法 AABB盒的表示方法有很多,总结起来有如下的三种情况: Max-min表示法:使用一个右上角和左下角的点来唯一的定义一个包围体 Center-radious表示法:我们用center点来表示中点,radious是一个数组,保存了包围盒在x方向,y方向,z方向上的半径. Min-Width表示方法:我们用mi

第二十六节,滑动窗口和 Bounding Box 预测

上节,我们学习了如何通过卷积网络实现滑动窗口对象检测算法,但效率很低.这节我们讲讲如何在卷积层上应用这个算法. 为了构建滑动窗口的卷积应用,首先要知道如何把神经网络的全连接层转化成卷积层.我们先讲解这部分内容,并演示卷积的应用过程. 一 卷积的滑动窗口实现 假设对象检测算法输入一个 14×14×3 的图像,图像很小,不过演示起来方便.在这里过滤器大小为 5×5,数量是 16, 14×14×3 的图像在过滤器处理之后映射为 10×10×16.然后通过参数为 2×2 的最大池化操作,图像减小到 5×

2. 滑动窗口和 Bounding Box 预测

滑动窗口和 Bounding Box 预测(转) 原文链接:https://www.cnblogs.com/zyly/p/9180485.html 目录 一 卷积的滑动窗口实现 二  Bounding Box 预测 上节,我们学习了如何通过卷积网络实现滑动窗口对象检测算法,但效率很低.这节我们讲讲如何在卷积层上应用这个算法. 为了构建滑动窗口的卷积应用,首先要知道如何把神经网络的全连接层转化成卷积层.我们先讲解这部分内容,并演示卷积的应用过程. 回到顶部 一 卷积的滑动窗口实现 假设对象检测算法

【CVPR2018】PointFusion: Deep Sensor Fusion for 3D Bounding Box Estimation

又一篇3D点云detection的顶会.这篇文章是two stage的方法,非end-to-end.文章的前提是利用faster rcnn得到2D图像的image crop:然后才是本文介绍的PointFusion,即将image crop和对应的3D点云数据作为输入,得到3D box.可以说这篇文章实际2D检测基础上做3D检测. 整个模型如图: 输入:2D 图像块(fatser RCNN检测结果):对应的3D点云 模型: 特征提取: 2D图像用预训练的ResNet50提取2048d的特征 用多

【边框回归】边框回归(Bounding Box Regression)详解(转)

转自:打开链接 Bounding-Box regression 最近一直看检测有关的Paper, 从rcnn, fast rcnn, faster rcnn, yolo, r-fcn, ssd,到今年cvpr最新的yolo9000.这些paper中损失函数都包含了边框回归,除了rcnn详细介绍了,其他的paper都是一笔带过,或者直接引用rcnn就把损失函数写出来了.前三条网上解释比较多,后面的两条我看了很多paper,才得出这些结论. 为什么要边框回归? 什么是边框回归? 边框回归怎么做的?