Faster rcnn代码理解(1)

这段时间看了不少论文,回头看看,感觉还是有必要将Faster rcnn的源码理解一下,毕竟后来很多方法都和它有相近之处,同时理解该框架也有助于以后自己修改和编写自己的框架。好的开始吧~

这里我们跟着Faster rcnn的训练流程来一步一步梳理,进入tools\train_faster_rcnn_alt_opt.py中:

首先从__main__入口处进入,如下:

上图中首先对终端中的命令行进行解析,获取相关的命令参数;然后利用mp.Queue()创建一个多线程的对象,再利用get_solvers()获得solvers等信息;然后就开始了论文中的“四步训练”:

第一步,首先训练RPN网络:

上图中,先开始子进程训练RPN,训练函数是train_rpn(),那么我们就进入这个函数一探究竟:

这里首先使用cfg设置训练时的一些设置参数(cfg类是一个字典,其定义在config.py中,属于网络训练时的配置文件),然后是初始化caffe,这里主要是设置了随机数种子,以及使用caffe训练时的模式(gpu/cpu);之后就是第一个重头戏--获取imdb和roidb格式的训练数据:

进入get_roidb()函数,如下:

首先通过get_imdb()函数获得imdb数据,那我们就再进入get_imdb()函数一探究竟,如下:

这里其实也是调用了pascal_voc()函数来创建imdb数据,pascal_voc类见pascal_voc.py文件中,如下:

这里只截取了一部分,可以发现,pascal_voc这个类主要用来组织输入的图片数据,存储图片的相关信息,但并不存储图片;而实际上,pascal_voc类是imdb类的一个子类;好了现在imdb数据已经获得了,再回到get_roidb()中,紧接着set_proposal_method()函数设置了产生proposal的方法,实际也是向imdb中添加roidb数据,进入set_proposal_method()这个函数:

首先用eval()对这个方法进行解析,使其有效,再传入roidb_handler中,这里遇到问题1(config.py设置产生proposal的默认方法是selective search,但本论文中应该是使用prn_roidb方法获得候选框的,这是在哪儿修改的???),先进入rpn_roidb()函数中:

首先用gt_roidb()获得gt的roi,进入gt_roidb()函数中:

这里gt_roidb()中实际是使用_load_pascal_annotation()通过解析XML文件获得gt的roi的,进入该解析函数:

可以发现,roidb的结构是一个包含有5个key的字典,具体值见上面代码~

然后再回到rpn_roidb(),使用_load_rpn_roidb()获得rpn_roidb,进入该函数中:

这里遇到问题2,”fileaname = self.config[‘rpn_file‘]“中的rpn_file默认值是0,后来是在哪儿赋值的???这里是用create_roidb_from_box_list()获得该roidb,进入该函数:

这里遇到问题3:rpn_roidb和gt_roidb有什么不同???

这一切弄好之后再回到rpn_roidb()中执行”roidb = self.merge_roidbs(gt_roidb , rpn_roidb)“将两种roidb进行融合,进入该融合函数:

这个时候就从imdb获得了最初的roidb格式的数据,但这还不是训练时的roidb数据,再回到get_roidb()函数中,通过get_training()函数得到最终用于训练的roidb数据,进入该函数:

先根据cfg.TRAIN.USE_FLIPPED判断是否需要对roi进行水平镜像翻转(注意这里的镜像的对称轴是图片的中心线),然后使用append_flipped_images()添加镜像roi,作者认为这样子能提高最终网络的训练结果(这应该算是一种简单的数据增强吧),进入该函数:

添加之后还没结束呢,回到get_training_roidb()中,最后还要再经过一步prepare_roidb(),进入该函数:

向roidb中再添加一些额外的信息就可以用来进行训练了,好了,到这儿,关于获取roidb和imdb的代码就介绍到这儿了,博文中的三个问题等我弄懂再更新进来,也请各位看官就这三个问题提点建议,歇息~

时间: 2024-11-05 19:24:16

Faster rcnn代码理解(1)的相关文章

Faster RCNN代码理解(Python)

转自http://www.infocool.net/kb/Python/201611/209696.html#原文地址 第一步,准备 从train_faster_rcnn_alt_opt.py入: 初始化参数:args = parse_args() 采用的是Python的argparse 主要有–net_name,–gpu,–cfg等(在cfg中只是修改了几个参数,其他大部分参数在congig.py中,涉及到训练整个网络). cfg_from_file(args.cfg_file) 这里便是代用

Faster rcnn代码理解(4)

上一篇我们说完了AnchorTargetLayer层,然后我将Faster rcnn中的其他层看了,这里把ROIPoolingLayer层说一下: 我先说一下它的实现原理:RPN生成的roi区域大小是对应与输入图像大小(而且每一个roi大小都不同,因为先是禅城九种anchors,又经过回归,所以大小各不同),所以在ROIPoolingLayer层中,先将每一个roi区域映射到经过conv5的feature map上,然后roi对应于feature map上的这一块区域再经过pooling操作映射

faster rcnn需要理解的地方

http://blog.csdn.net/terrenceyuu/article/details/76228317 https://www.cnblogs.com/houkai/p/6824455.html http://lib.csdn.net/article/computervison/67828 原文地址:https://www.cnblogs.com/ymjyqsx/p/8283515.html

对faster rcnn 中rpn层的理解

1.介绍 图为faster rcnn的rpn层,接自conv5-3 图为faster rcnn 论文中关于RPN层的结构示意图 2 关于anchor: 一般是在最末层的 feature map 上再用3*3的窗口去卷积特征.当3*3的卷积核滑动到特征图的某一个位置时,以当前滑动窗口中心为中心映射到原图的一个区域(注意 feature map 上的一个点是可以映射到原图的一个区域的,这个很好理解,感受野起的作用啊-...),以原图上这个区域的中心对应一个尺度和长宽比,就是一个anchor了.fas

Faster RCNN算法代码解析

一. Faster-RCNN代码解释 先看看代码结构: Data: This directory holds (after you download them): Caffe models pre-trained on ImageNet Faster R-CNN models Symlinks to datasets demo 5张图片 scripts 下载模型的脚本 Experiments: logs scripts/faster_rcnn_alt_opt.sh cfgs/faster_rcn

一个门外汉的理解 ~ Faster R-CNN

首先放R-CNN的原理图 显然R-CNN的整过过程大致上划分为四步: 1.输入图片 2.生成候选窗口 3.对局部窗口进行特征提取(CNN) 4.分类(Classify regions) 而R-CNN的缺陷就在于对每个候选窗口都要进行特征提取,造成了计算时间成本很大. 再放Fast R-CNN的原理图 Fast R-CNN的提高速度的关键就在于将proposal的region映射到CNN的最后一层conv layer的feature map上,意味着一张图片只需要进行一次特征提取. 而既然R-CN

Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks论文理解

一.创新点和解决的问题 创新点 设计Region Proposal Networks[RPN],利用CNN卷积操作后的特征图生成region proposals,代替了Selective Search.EdgeBoxes等方法,速度上提升明显: 训练Region Proposal Networks与检测网络[Fast R-CNN]共享卷积层,大幅提高网络的检测速度. 解决的问题 继Fast R-CNN后,在CPU上实现的区域建议算法Selective Search[2s/image].EdgeB

Faster R-CNN论文详解

原文链接:http://lib.csdn.net/article/deeplearning/46182 paper链接:Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks &创新点 设计Region Proposal Networks[RPN],利用CNN卷积操作后的特征图生成region proposals,代替了Selective Search.EdgeBoxes等方法,速度上提升明显:

Faster RCNN学习记录

<Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks>Shaoqing Ren, Kaiming He, Ross Girshick, Jian Sun                                           ——学习资料记录(Simon John) 文章拟解决问题(Towards Real-Time) SPP net和Fast R-CNN提取proposal(