卷积神经网络(4)----目标检测

一、分类、定位和检测

简单来说,分类、定位和检测的区别如下:

  1. 分类:是什么?
  2. 定位:在哪里?是什么?(单个目标)
  3. 检测:在哪里?分别是什么?(多个目标)
     

(1)目标分类


(2)目标定位


(3)目标检测

二、目标定位:

1)案例1:在构建自动驾驶时,需要定位出照片中的行人、汽车、摩托车和背景,即四个类别。

输出:

1,2,3为要检测的行人、汽车、摩托车, Pc=1

4为背景, Pc=0

 Pc:首先第一个元素pc=1表示有要定位的物体的概率,即是有1,2,3类的概率,否则pc=0表示只有背景第4类如上图的第二个图。

bx,by,bh,bw:这四个输出元素表示定位框的中心坐标bx,by和宽高bh,bw

c1,c2,c3:3个输出元素one-hot表示是三个类别(1,2,3)中的哪一类。

当第一个元素pc=0时表示是背景,然后就不需要考虑其他输出了

损失函数:

输出向量中有8个元素:故:

if y1 =1 ,L = (y‘1-y1)2 + (y‘2-y2)2 + ……+(y‘8-y8)2

if y1 = 0,L = (y‘1-y1)2

实际使用中pc使用逻辑回归,c1,c2,c3是用softmax激活然后用对数损失函数,位置信息是使用平方误差损失函数,然后将这些损失函数相加起来得到最终的代价函数。当标签y=0时,只考虑pc即可。

三、特征点检测:

特征点检测就是第一个单元输出1,表示有这个对象(如人脸),

然后如果在人脸上定义了64个特征点(如下图所示),每个特征点用(x,y)表示,那么网络将会有1+2*68=129个单元输出。

需要注意的一点是在标注样本时,所有标签在所有图片中务必保持一致,比如说,第5个特征点表示左眼的外眼角,那么所有图片的第五个特征点都应该是这个。

四、目标检测:滑动窗口、YOLO算法【更好解决边界】

https://www.cnblogs.com/ys99/p/9326637.html

传统的窗口滑动:将图片切割成很多小窗口,然后进行目标检测。直到某个小窗口检测到目标。

卷积的滑动窗口实现:在原输入补上边,在进行卷积操作,得到结果。

例如:

原输入是14*14*3,输出是1*1*4【4个分类】。传统的滑动窗口是将原输入切成4个,每个大小为12*12*3。经过重复4次卷积操作得到4个1*1*4。

卷积的滑动窗口:将原输入补成16*16*3,输出为2*2*4。只需要经过一次卷积操作就可以得到和4个1*1*4相同的结果2*2*4=2*2*(1*1*4)。

交并比函数是用来判断对象定位是否准确,IoU=(A∩B)/(A∪B),一般将交并比的值大于0.5看成是检测正确的,当然这个值可以根据实际情况来定。

原文地址:https://www.cnblogs.com/Lee-yl/p/10015979.html

时间: 2024-07-28 17:15:19

卷积神经网络(4)----目标检测的相关文章

卷积神经网络及目标检测调研报告

这个PPT是最近做的一次卷积神经网络和目标检测识别的调研报告,包括读的几篇顶级会议期刊的论文,分为以下内容: (1)卷积神经网络的基本概念和发展脉络: (2)卷积神经网络的改进: (3)卷积神经网络的GPU并行化: (4)目标检测相关数据库和研究进展. PPT做的优点粗糙,见谅...整个PPT最后的参考文献是最重要的^_^. 因为页数太多,就不往上贴了,有需要的话,资源连接在这里: 卷积网PPT: http://download.csdn.net/detail/wds555/8379061

深度卷积神经网络在目标检测中的进展

作者:travelsea链接:https://zhuanlan.zhihu.com/p/22045213来源:知乎著作权归作者所有.商业转载请联系作者获得授权,非商业转载请注明出处. 近些年来,深度卷积神经网络(DCNN)在图像分类和识别上取得了很显著的提高.回顾从2014到2016这两年多的时间,先后涌现出了R-CNN,Fast R-CNN, Faster R-CNN, ION, HyperNet, SDP-CRC, YOLO,G-CNN, SSD等越来越快速和准确的目标检测方法. 基于Reg

DeepLearning.ai学习笔记(四)卷积神经网络 -- week3 目标检测

一.目标定位 这一小节视频主要介绍了我们在实现目标定位时标签该如何定义. 上图左下角给出了损失函数的计算公式(这里使用的是平方差) 如图示,加入我们需要定位出图像中是否有pedestrian,car,motorcycles.注意在这里我们假设图像中只肯呢个存在这三者中的一种或者都不存在,所以共有四种可能. \(P_c=1\)表示有三者中的一种 \(C_1=1\)表示有pedestrian,反之没有 \(C_2=1\)表示有car \(C_3=1\)表示有motorcycles \(b_*\)用于

卷积神经网络(三)--目标检测

本章介绍目标定位和目标检测(包含多目标检测). 1. Object Localization 原始图片经过CONV卷积层后,Softmax层输出4 x 1向量,分别是: 注意,class label也可能是概率.上述四个向量分别对应pedestrain,car,motorcycle和background四类. 对于目标定位和目标检测问题,其模型如下所示: 原始图片经过CONV卷积层后,Softmax层输出8 x 1向量.除了包含上述一般CNN分类3 x 1向量(class label)之外,还包

奇点云三角肌「秀肌肉」,端化目标检测模型再获突破

人工智能正在驱动新一轮的商业变革,而算法技术则是推动核心底层技术的重要力量.算法崛起时代,技术浪潮可谓一日千里,算法工程师也只有不断精进自身技术,才能与时俱进.驭浪前行.近日,奇点云算法工程师三角肌在目标检测算法领域又有新突破. 摘要 卷积神经网络对目标检测的精度有着显著的提升,并且随着卷积神经网络的深度加深,对目标检测精度提升也越大,但是也需要更多的浮点计算.许多研究者通过知识蒸馏的方法,通过把一个更深更大的教师网络中的知识转移到一个小的学生网络中,以提高学生网络在目标检测中的效果.而大部分知

修剪版的卷积神经网络在性别分类中的应用

前言:今天为大家带来一篇文章,发在CVPR 2017.是在LFW上做的实验,是一个二分类问题---性别识别. 原文:Efficient Gender Classification Using a Deep LDA-Pruned Net 摘要:本文也是说到了,卷积深度神经网络在目标检测,模式识别等各个方面取得了非常好的效果,是必须要有更强大的GPU支持.所以针对这个问题提出了一个修剪的卷积神经网络,用的是VGG基模型.在这里补充下VGG网络结构. VGG: VGG是一种非常有效的,经典的卷积神经网

吴恩达【深度学习工程师】 04.卷积神经网络 第三周目标检测 (1)基本的对象检测算法

该笔记介绍的是<卷积神经网络>系列第三周:目标检测(1)基本的对象检测算法 主要内容有: 1.目标定位 2.特征点检测 3.目标检测  目标定位 使用算法判断图片中是不是目标物体,如果是还要再图片中标出其位置并使用边框标记出来                          我们研究过的问题中,图片分类的思想可以帮助学习分类定位,而分类定位的思想又可以帮助学习对象检测 a.分类定位问题,通常有一个较大的对象位于图片中间位置. b.对象检测问题,图片可以含有多个对象,或一张图片中会有多个不同分

数据挖掘、目标检测中的cnn和cn---卷积网络和卷积神经网络

content 概述 文字识别系统LeNet-5 简化的LeNet-5系统 卷积神经网络的实现问题 深度神经网路已经在语音识别,图像识别等领域取得前所未有的成功.本人在多年之前也曾接触过神经网络.本系列文章主要记录自己对深度神经网络的一些学习心得. 第二篇,讲讲经典的卷积神经网络.我不打算详细描述卷积神经网络的生物学运行机理,因为网络上有太多的教程可以参考.这里,主要描述其数学上的计算过程,也就是如何自己编程去实现的问题. 1. 概述 回想一下BP神经网络.BP网络每一层节点是一个线性的一维排列

人脸检测及识别python实现系列(4)——卷积神经网络(CNN)入门

人脸检测及识别python实现系列(4)--卷积神经网络(CNN)入门 上篇博文我们准备好了2000张训练数据,接下来的几节我们将详细讲述如何利用这些数据训练我们的识别模型.前面说过,原博文给出的训练程序使用的是keras库,对我的机器来说就是tensorflow版的keras.训练程序建立了一个包含4个卷积层的神经网络(CNN),程序利用这个网络训练我的人脸识别模型,并将最终训练结果保存到硬盘上.在我们实际动手操练之前我们必须先弄明白一个问题--什么是卷积神经网络(CNN)? CNN(Conv