目标检测论文解读5——YOLO v1

背景

　　之前热门的目标检测方法都是two stage的，即分为region proposal和classification两个阶段，本文是对one stage方法的初次探索。

方法

　　首先看一下模型的网络结构，输入的原图片，经过24个卷积层提取特征，全连接层输出一个7*7*30的tensor，这个tensor里面就包含我们预测的结果了。

　　那么这个7*7*30的tensor包含哪些信息呢？

　　首先，7*7可以映射到448*448的原图片中，得到7*7个64*64的grid cell，对于原图中的每一个目标，中心点落在哪个grid cell里，就交给它来预测。

　　而每个grid cell可以预测两个目标的位置(x,y,w,h)，还有他们的置信度confidence=Pr(Object)*IOU，但是论文里面规定两个目标类别一致，所以再加上class属性，一共20种。

　　2*4+2+20=30

总结

　　YOLO v1比较简单，用回归的思想做检测，但在读论文的时候明显能感觉到有很多人为的特殊规定，所以效果也一般般。

缺点　

　　检测的位置不准；密集物体检测的效果不好(只要一个grid cell里面的物体多于2个就检测不到了)。

原文地址：https://www.cnblogs.com/xin1998/p/11378638.html

时间： 2024-10-11 19:50:01

目标检测论文解读5——YOLO v1的相关文章

目标检测论文解读7——YOLO v2

背景 YOLO v1检测效果不好,且无法应用于检测密集物体. 方法 YOLO v2是在YOLO v1的基础上,做出如下改进. (1)引入很火的Batch Normalization,提高mAP和训练速度: (2)加入了Anchor Box机制,每个grid cell5个Anchor Box: (3)自动选择Anchor Box,这是作者所作出的创新,之前Anchor Box都是人为直接规定的,显然不是很合理.作者通过K-means聚类算法,用IoU作为距离度量,生成了Anchor Box的尺度.

目标检测论文解读2——Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

背景用ConvNet方法解决图像分类.检测问题成为热潮,但这些方法都需要先把图片resize到固定的w*h,再丢进网络里,图片经过resize可能会丢失一些信息.论文作者发明了SPP pooling(空间金字塔池化)层,让网络可以接受任意size的输入. 方法首先思考一个问题,为什么ConvNet需要一个固定size的图片作为输入,我们知道,Conv层只需要channel固定(彩色图片3,灰度图1),但可以接受任意w*h的输入,当然输出的w*h也会跟着变化:然而,后面的FC层却需要固定长度的

目标检测论文解读12——RetinaNet

引言这篇论文深刻分析了one-stage的模型精度比two-stage更差的原因,并提出Focal Loss提高精度. 思路在论文中,作者指出,造成one-stage模型精度差的原因主要是:正负样本极不平衡.一张图片只有那么几个目标,但是用来分类的Anchor Box却能达到几千个,大量的样本都是负样本,而且大多数负样本都是容易分类的简单样本,这些简单样本的loss虽然低但是凭借着数量众多,能对loss有很大的贡献.因此分类器只用无脑判负也能达到不错的效果. 作者提出的Focal Loss能

目标检测论文解读11——Mask R-CNN

目的让Faster R-CNN能做实例分割的任务. 方法模型的结构图如下. 与Faster R-CNN相比,主要有两点变化. (1) 用RoI Align替代RoI Pool. 首先回顾一下RoI Pool,流程为:将RPN产生的原图侯选框映射到CNNs输出的feature map上,显然原图比feature map大,所以映射后的像素坐标可能会有小数,这里的做法是用近邻插值法,通俗讲,坐标四舍五入. 而这种做法肯定会带来一些空间位置上的小误差,而我们后面的实例分割是逐像素的,接受不了这种误

目标检测论文（尤其针对一些小目标的可能改进方法）

------------------------------------------------------------------------About Face detection------------------------------------------------------------------------1.Finding Tiny Faces Code:https://github.com/peiyunh/tiny 小目标检测难3大原因:目标本身尺度变化.图像

paper 111：图像分类物体目标检测 from RCNN to YOLO

参考列表 Selective Search for Object Recognition Selective Search for Object Recognition(菜菜鸟小Q的专栏) Selective Search for Object Recognition(Surge) Selective Search for Object Recognition(原始论文) Efficient Graph-Based Image Segmentation(快速图像分割) Homepage of K

目标检测论文阅读：Deformable Convolutional Networks

https://blog.csdn.net/qq_21949357/article/details/80538255 这篇论文其实读起来还是比较难懂的,主要是细节部分很需要推敲,尤其是deformable的卷积如何实现的一步上,在写这篇博客之前,我也查阅了很多其他人的分享或者去github找代码,当然也不敢说完全了解了这种特殊的卷积--仅仅做一点自己的阅读心得与体会吧.这是一篇很有意义的工作,但是和深度学习很多论文一样,在读完之后内心也不免有着种种疑云. Deformable Convoluti

4. 基于深度学习的目标检测算法的综述(转)

4. 基于深度学习的目标检测算法的综述(转) 原文链接:https://www.cnblogs.com/zyly/p/9250195.html 目录一相关研究 1.选择性搜索(Selective Search) 2.OverFeat 二.基于区域提名的方法 1.R-CNN 2.SPP-Net 3.Fast R-CNN 4.Faster R-CNN 5.R-FCN 三端对端的方法 1.YOLO 2.SSD 四总结在前面几节中,我们已经介绍了什么是目标检测,以及如何进行目标检测,还提及了滑

An Analysis of Scale Invariance in Object Detection – SNIP 论文解读

前言本来想按照惯例来一个overview的,结果看到一篇十分不错而且详细的介绍,因此copy过来,自己在前面大体总结一下论文,细节不做赘述,引用文章讲得很详细. 论文概述引用文章以下内容来自:http://lowrank.science/SNIP/ 这篇日志记录一些对下面这篇 CVPR 2018 Oral 文章的笔记. Singh B, Davis L S. An Analysis of Scale Invariance in Object Detection–SNIP[C]//Proce