(转)基于深度学习的物体检测

本文转自:http://www.cosmosshadow.com/ml/%E5%BA%94%E7%94%A8/2015/12/07/%E7%89%A9%E4%BD%93%E6%A3%80%E6%B5%8B.html

物体检测

Index

RCNN

Rich feature hierarchies for accurate object detection and semantic segmentation 
早期,使用窗口扫描进行物体识别,计算量大。 
RCNN去掉窗口扫描,用聚类方式,对图像进行分割分组,得到多个侯选框的层次组。

  • 原始图片通过Selective Search提取候选框,约有2k个
  • 侯选框缩放成固定大小
  • 经过CNN
  • 经两个全连接后,分类

Fast RCNN

Fast R-CNN 
RCNN中有CNN重复计算,Fast RCNN则去掉重复计算,并微调选框位置。

  • 整图经过CNN,得到特征图
  • 提取域候选框
  • 把候选框投影到特征图上,Pooling采样成固定大小
  • 经两个全连接后,分类与微调选框位置

Faster RCNN

Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks 
提取候选框运行在CPU上,耗时2s,效率低下。 
Faster RCNN使用CNN来预测候选框。

  • 整图经过CNN,得到特征图
  • 经过核为 3×3×2563×3×256 的卷积,每个点上预测k个anchor box是否是物体,并微调anchor box的位置
  • 提取出物体框后,采用Fast RCNN同样的方式,进行分类
  • 选框与分类共用一个CNN网络

anchor box的设置应比较好的覆盖到不同大小区域,如下图:

一张1000×6001000×600的图片,大概可以得到20k个anchor box(60×40×960×40×9)。

R-FCN

R-FCN: Object Detection via Region-based Fully Convolutional Networks 
RCNN系列(RCNN、Fast RCNN、Faster RCNN)中,网络由两个子CNN构成。在图片分类中,只需一个CNN,效率非常高。所以物体检测是不是也可以只用一个CNN? 
图片分类需要兼容形变,而物体检测需要利用形变,如何平衡? 
R-FCN利用在CNN的最后进行位置相关的特征pooling来解决以上两个问题。

经普通CNN后,做有 k2(C+1)k2(C+1) 个 channel 的卷积,生成位置相关的特征(position-sensitive score maps)。 
CC 表示分类数,加 11 表示背景,kk 表示后续要pooling 的大小,所以生成 k2k2 倍的channel,以应对后面的空间pooling。

普通CNN后,还有一个RPN(Region Proposal Network),生成候选框。 
假设一个候选框大小为 w×hw×h,将它投影在位置相关的特征上,并采用average-pooling的方式生成一个 k×k×k2(C+1)k×k×k2(C+1) 的块(与Fast RCNN一样),再采用空间相关的pooling(k×kk×k平面上每一个点取channel上对应的部分数据),生成 k×k×(C+1)k×k×(C+1)的块,最后再做average-pooling生成 C+1C+1 的块,最后做softmax生成分类概率。 
类似的,RPN也可以采用空间pooling的结构,生成一个channel为 4k24k2的特征层。 
空间pooling的具体操作可以参考下面。

训练与SSD相似,正负点取一个常数,如128。除去正点,剩下的所有使用概率最高的负点。

YOLO

You Only Look Once: Unified, Real-Time Object Detection 
Faster RCNN需要对20k个anchor box进行判断是否是物体,然后再进行物体识别,分成了两步。 
YOLO则把物体框的选择与识别进行了结合,一步输出,即变成”You Only Look Once”。

  • 把原始图片缩放成448×448448×448大小
  • 运行单个CNN
  • 计算物体中心是否落入单元格、物体的位置、物体的类别

模型如下:

  • 把缩放成统一大小的图片分割成S×SS×S的单元格
  • 每个单元格输出B个矩形框(冗余设计),包含框的位置信息(x, y, w, h)与物体概率P(Object)P(Object)
  • 每个单元格再输出C个类别的条件概率P(Class∣Object)P(Class∣Object)
  • 最终输出层应有S×S×(B∗5+C)S×S×(B∗5+C)个单元
  • x, y 是每个单元格的相对位置
  • w, h 是整图的相对大小

分类的概率

P(Class)=P(Class∣Object)⋅P(Object)P(Class)=P(Class∣Object)⋅P(Object)

在原论文中,S = 7,B = 2,C = 20,所以输出的单元数为7×7×307×7×30。

代价函数:

J=λcoord∑i=0S2∑j=0B1objij(xi−x^i)2+(yi−y^i)2+λcoord∑i=0S2∑j=0B1objij(wi−−√−w^i−−√)2+(hi−−√−h^i−−√)2+∑i=0S2∑j=0B1objij(Ci−C^i)2+λnoobj∑i=0S2∑j=0B1noobjij(Ci−C^i)2+∑i=0S21objij∑c∈classes(pi(c)−p^i(c))2J=λcoord∑i=0S2∑j=0B1ijobj(xi−x^i)2+(yi−y^i)2+λcoord∑i=0S2∑j=0B1ijobj(wi−w^i)2+(hi−h^i)2+∑i=0S2∑j=0B1ijobj(Ci−C^i)2+λnoobj∑i=0S2∑j=0B1ijnoobj(Ci−C^i)2+∑i=0S21ijobj∑c∈classes(pi(c)−p^i(c))2

其中 λcoord=5λcoord=5,λnoobj=0.5λnoobj=0.5。 
一般,ww 与 hh 不是在 [0,1][0,1] 上的均匀分布,偏小,所以开方。

SSD

SSD: Single Shot MultiBox Detector 
YOLO在 7×77×7 的框架下识别物体,遇到大量小物体时,难以处理。 
SSD则在不同层级的feature map下进行识别,能够覆盖更多范围。

假设在 mm 层 feature map 上进行识别,则第 kk 层的基本比例为

sk=smin+smax−sminm−1(k−1)k∈[1,m]sk=smin+smax−sminm−1(k−1)k∈[1,m]

比如 smin=0.2smin=0.2,smax=0.95smax=0.95,表示整张图片识别物体所占比最小 0.2,最大 0.95。 
在基本比例上,再取多个长宽比,令 a={1,2,3,1/2,1/3}a={1,2,3,1/2,1/3},长宽分别为

wik=skai−−√hik=sk/ai−−√i∈[1,5]wki=skaihki=sk/aii∈[1,5]

w6k=sksk+1−−−−−√h6k=sksk+1−−−−−√wk6=sksk+1hk6=sksk+1

Match策略上,取ground truth与以上生成的格子重叠率大于0.5的。

SSD vs YOLO

位置采用Smooth L1 Regression,分类采用Softmax。 
代价函数为

L=Lconf(x,c)+α⋅Lloc(x,l,g))L=Lconf(x,c)+α⋅Lloc(x,l,g))

xx 表示类别输出,cc 表示目标分类,ll 表示位置输出,gg 表示目标位置, αα是比例常数,可取1。 
训练过程中负点远多于正点,所以只取负点中,概率最大的几个,数量与正点成 3:13:1 。

NMS

以上方法,同一物体可能有多个预测值。 
可用NMS(Non-maximum suppression,非极大值抑制)来去重。

如上图所示,一共有6个识别为人的框,每一个框有一个置信率。 
现在需要消除多余的:

  • 按置信率排序: 0.95, 0.9, 0.9, 0.8, 0.7, 0.7
  • 取最大0.95的框为一个物体框
  • 剩余5个框中,去掉与0.95框重叠率大于0.6(可以另行设置),则保留0.9, 0.8, 0.7三个框
  • 重复上面的步骤,直到没有框了,0.9为一个框
  • 选出来的为: 0.95, 0.9

两个矩形的重叠率计算方式如下:

如图,两个矩形的面积分别为A, B

  • 取两个矩形左上角坐标的最大值x1_max, y1_max
  • 取两个矩形右下角坐标的最小值x2_min, y2_min
  • 重叠区域的宽w为max(0, x2_min - x1_max),高h为max(0, y2_min - y1_max)
  • 重叠率为 w×hA+B−w×hw×hA+B−w×h

xywh VS xyxy

系列论文中,位置都用 (x,y,w,h)(x,y,w,h) 来表示,没有用左上角、右下角 (x,y,x,y)(x,y,x,y) 来表示。 
初衷是当 (w,h)(w,h) 正确时,(x,y)(x,y) 一点错,会导致整个框就不准了。 
在初步的实际实验中,(x,y,x,y)(x,y,x,y) 效果要差一些。

背后的逻辑,物体位置用 (x,y,w,h)(x,y,w,h) 来学习比较容易。 
(x,y)(x,y) 只需要位置相关的加权就能计算出来; 
(w,h)(w,h) 就更简单了,直接特征值相加即可。

时间: 2024-07-31 14:30:47

(转)基于深度学习的物体检测的相关文章

基于深度学习的目标检测研究进展

前言 开始本文内容之前,我们先来看一下上边左侧的这张图,从图中你看到了什么物体?他们在什么位置?这还不简单,图中有一个猫和一个人,具体的位置就是上图右侧图像两个边框(bounding-box)所在的位置.其实刚刚的这个过程就是目标检测,目标检测就是"给定一张图像或者视频帧,找出其中所有目标的位置,并给出每个目标的具体类别". 目标检测对于人来说是再简单不过的任务,但是对于计算机来说,它看到的是一些值为0~255的数组,因而很难直接得到图像中有人或者猫这种高层语义概念,也不清楚目标出现在

基于深度学习的目标检测

普通的深度学习监督算法主要是用来做分类,如图1(1)所示,分类的目标是要识别出图中所示是一只猫.而在ILSVRC(ImageNet Large Scale Visual Recognition Challenge)竞赛以及实际的应用中,还包括目标定位和目标检测等任务.其中目标定位是不仅仅要识别出来是什么物体(即分类),而且还要预测物体的位置,位置一般用边框(bounding box)标记,如图1(2)所示.而目标检测实质是多目标的定位,即要在图片中定位多个目标物体,包括分类和定位.比如对图1(3

第二十八节、基于深度学习的目标检测算法的综述

在前面几节中,我们已经介绍了什么是目标检测,以及如何进行目标检测,还提及了滑动窗口,bounding box.以及IOU,非极大值抑制等概念. 这里将会综述一下当前目标检测的研究成果,并对几个经典的目标检测算法进行概述,本文内容来自基于深度学习的目标检测,在后面几节里,会具体讲解每一种方法. 在深度度学习的目标检测算法兴起之前,传统的目标检测算法是怎样的呢? 传统的目标检测一般使用滑动窗口的框架,主要包括三个步骤: 利用不同尺寸的滑动窗口框住图中的某一部分作为候选区域: 提取候选区域相关的视觉特

目标检测梳理:基于深度学习的目标检测技术演进:R-CNN、Fast R-CNN、Faster R-CNN(转)

基于深度学习的目标检测技术演进:R-CNN.Fast R-CNN.Faster R-CNN(转) 原文链接:https://www.cnblogs.com/skyfsm/p/6806246.html object detection我的理解,就是在给定的图片中精确找到物体所在位置,并标注出物体的类别.object detection要解决的问题就是物体在哪里,是什么这整个流程的问题.然而,这个问题可不是那么容易解决的,物体的尺寸变化范围很大,摆放物体的角度,姿态不定,而且可以出现在图片的任何地方

4. 基于深度学习的目标检测算法的综述(转)

4. 基于深度学习的目标检测算法的综述(转) 原文链接:https://www.cnblogs.com/zyly/p/9250195.html 目录 一 相关研究 1.选择性搜索(Selective Search) 2.OverFeat 二.基于区域提名的方法 1.R-CNN 2.SPP-Net 3.Fast R-CNN 4.Faster R-CNN 5.R-FCN 三 端对端的方法 1.YOLO 2.SSD 四 总结 在前面几节中,我们已经介绍了什么是目标检测,以及如何进行目标检测,还提及了滑

手把手教你用深度学习做物体检测(六):YOLOv2介绍

本文接着上一篇<手把手教你用深度学习做物体检测(五):YOLOv1介绍>文章,介绍YOLOv2在v1上的改进.有些性能度量指标术语看不懂没关系,后续会有通俗易懂的关于性能度量指标的介绍文章. YOLOv2 论文:< YOLO9000: Better, Faster, Stronger> 地址:  https://arxiv.org/pdf/1612.08242v1.pdf yolov2和v1的区别 引入了Batch Normalization  有一定的正则化效果,可以减轻过拟合,

基于深度学习的图像语义分割技术概述之背景与深度网络架构

图像语义分割正在逐渐成为计算机视觉及机器学习研究人员的研究热点.大量应用需要精确.高效的分割机制,如:自动驾驶.室内导航.及虚拟/增强现实系统.这种需求与机器视觉方面的深度学习领域的目标一致,包括语义分割或场景理解.本文对多种应用领域语义分割的深度学习方法进行概述.首先,我们给出本领域的术语及主要背景知识.其次,介绍主要的数据集及难点,以帮助研究人员找到合适的数据集和研究目标.之后,概述现有方法,及其贡献.最后,给出提及方法的量化标准及其基于的数据集,接着是对于结果的讨论.最终,对于基于深度学习

基于深度学习的图像语义编辑

深度学习在图像分类.物体检测.图像分割等计算机视觉问题上都取得了很大的进展,被认为可以提取图像高层语义特征.基于此,衍生出了很多有意思的图像应用. 为了提升本文的可读性,我们先来看几个效果图. 图1. 图像风格转换 图2. 图像修复,左上图为原始图,右下图为基于深度学习的图像 图3. 换脸,左图为原图,中图为基于深度学习的算法,右图为使用普通图像编辑软件的效果 图4. 图像超清化效果图,从左到右,第一张为低清图像三次插值结果,第二张残差网络的效果,第三张为使用对抗神经网络后的结果,第四张为原图.

深度学习之目标检测常用算法原理+实践精讲

第1章 课程介绍本章节主要介绍课程的主要内容.核心知识点.课程涉及到的应用案例.深度学习算法设计通用流程.适应人群.学习本门课程的前置条件.学习后达到的效果等,帮助大家从整体上了解本门课程的整体脉络. 第2章 目标检测算法基础介绍本章节主要介绍目标检测算法的基本概念.传统的目标检测算法.目前深度学习目标检测主流方法(one-stage.two-stage.多任务网络).相关算法的基本流程.算法性能的评价指标.不同算法的优缺点和性能比较等,并结合实际的应用场景和案例来介绍目标检测算法的重要性和实用