目标检测框架阅读步骤

总结一下最近一年来阅读目标检测框架的一些经验,主要是基于facebook的maskrcnn_benchmark和Detectron2。
组件
目标检测的框架需要包含:

组件 功能
config 所有参数设置
structures 数据容器,image, box, label, mask, keypoint
data 数据整理,dataset, dataloader, transform
modeling 网络模型,meta_arch, backbone, proposals_generator, anchor_generator, heads
layers 特殊模块,roi_align, batch_norm, defrom_conv, separable_conv
engien 训练推理, trainer, inference
solver 优化器, optimizer, lr_scheduler
evaluation 评估器, 各种数据集的evaluator
utils 其他一些实现,model_zoo, checkpointer, logger, rigistry, 分布式方法等

从宏观上看,阅读分析目标检测框架时可以按照以上顺序逐步进行,同时结合训练和推理的demo,在pycharm下逐步调试。

原文地址:https://www.cnblogs.com/zi-wang/p/12293998.html

时间: 2024-10-07 22:56:01

目标检测框架阅读步骤的相关文章

目标检测论文阅读:Deformable Convolutional Networks

https://blog.csdn.net/qq_21949357/article/details/80538255 这篇论文其实读起来还是比较难懂的,主要是细节部分很需要推敲,尤其是deformable的卷积如何实现的一步上,在写这篇博客之前,我也查阅了很多其他人的分享或者去github找代码,当然也不敢说完全了解了这种特殊的卷积--仅仅做一点自己的阅读心得与体会吧.这是一篇很有意义的工作,但是和深度学习很多论文一样,在读完之后内心也不免有着种种疑云. Deformable Convoluti

目标检测框架py-faster-rcnn修改anchor_box

众所周知,anchor_box控制了回归框的大小,我们有时候检测的是大物体或小物体时,需要调整回归框的大小的时候,得改一下anchor_box.基于rgb公开的py-faster-rcnn修改anchor_box的步骤有一下几步:1.修改py-faster-rcnn-my/lib/rpn下的三个文件:1)generate_anchors.py.将以下两行修改成你想要的模样,然后执行这个文件,记下执行后得到的结果的len.记anchor_box的个数.默认设置得到的是9个.因为是3个scale,3

4. 基于深度学习的目标检测算法的综述(转)

4. 基于深度学习的目标检测算法的综述(转) 原文链接:https://www.cnblogs.com/zyly/p/9250195.html 目录 一 相关研究 1.选择性搜索(Selective Search) 2.OverFeat 二.基于区域提名的方法 1.R-CNN 2.SPP-Net 3.Fast R-CNN 4.Faster R-CNN 5.R-FCN 三 端对端的方法 1.YOLO 2.SSD 四 总结 在前面几节中,我们已经介绍了什么是目标检测,以及如何进行目标检测,还提及了滑

基于深度学习的目标检测研究进展

前言 开始本文内容之前,我们先来看一下上边左侧的这张图,从图中你看到了什么物体?他们在什么位置?这还不简单,图中有一个猫和一个人,具体的位置就是上图右侧图像两个边框(bounding-box)所在的位置.其实刚刚的这个过程就是目标检测,目标检测就是"给定一张图像或者视频帧,找出其中所有目标的位置,并给出每个目标的具体类别". 目标检测对于人来说是再简单不过的任务,但是对于计算机来说,它看到的是一些值为0~255的数组,因而很难直接得到图像中有人或者猫这种高层语义概念,也不清楚目标出现在

基于深度学习的目标检测

普通的深度学习监督算法主要是用来做分类,如图1(1)所示,分类的目标是要识别出图中所示是一只猫.而在ILSVRC(ImageNet Large Scale Visual Recognition Challenge)竞赛以及实际的应用中,还包括目标定位和目标检测等任务.其中目标定位是不仅仅要识别出来是什么物体(即分类),而且还要预测物体的位置,位置一般用边框(bounding box)标记,如图1(2)所示.而目标检测实质是多目标的定位,即要在图片中定位多个目标物体,包括分类和定位.比如对图1(3

CS231n第八课:目标检测定位学习记录

结合视频第八集和笔记:http://chuansong.me/n/353443351445 本节课程从分类(Classification),定位(Localization)和检测(Detection)三个方面入手. 从上图可以直观的看到: 1.对于分类而言,就是对于给定的图片把其划分到给定的几种类别中某一种.很显然,图像中只能存在一种给定类别中的对象. 2.而定位就是找到对应的对象的位置区域,把它框选出来(即Bounding Box),这个选框除了位置信息(x,y)外还要包含其大小信息(w,h)

目标检测算法综述

1. 传统的目标检测框架,主要包括三个步骤:(1)利用不同尺寸的滑动窗口框住图中的某一部分作为候选区域:(2)提取候选区域相关的视觉特征.比如人脸检测常用的Harr特征:行人检测和普通目标检测常用的HOG特征等:(3)利用分类器进行识别,比如常用的SVM模型: 2. 目标检测领域的深度学习方法主要分为两类: 一阶段(One Stage ):不需要产生候选框,直接将目标框定位的问题转化为回归(Regression)问题处理(Process).常见的算法有YOLO.SSD等等. 两阶段(Two St

HoG SVM 目标检测分析

前一段时间开始了解HoG跟SVM行人识别,看了很多包括Dalal得前辈的文章及经验分享,对HoG理论有了些初步的认识. HoG 的全称是 Histogram of Oriented Gradient, 直译过来也就是梯度方向直方图. 就是计算各像素的梯度方向,统计成为直方图来作为特征表示目标. 下面简述一下利用HoG + SVM 实现目标检测的简要步骤 Step1:获取正样本集并用hog计算特征得到hog特征描述子.例如进行行人检测,可用IRINA等行人样本集,提取出行人的描述子. Step2:

第二十五节,目标定位、特征点检测依据目标检测

一 目标定位 对象检测,它是计算机视觉领域中一个新兴的应用方向,相比前两年,它的性能越来越好.在构建对象检测之前,我们先了解一下对象定位,首先我们看看它的定义. 图片分类任务我们已经熟悉了,就是算法遍历图片,判断其中的对象是不是汽车,这就是图片分类.这节我们要学习构建神经网络的另一个问题,即定位分类问题.这意味着,我们不仅要用算法判断图片中是不是一辆汽车,还要在图片中标记出它的位置,用边框或红色方框把汽车圈起来, 这就是定位分类问题. 其中"定位"的意思是判断汽车在图片中的具体位置.这