Rich feature hierarchies for accurate object detection and semantic segmentation

一、主要思想

本文的主要思想首先采用Selective Search for Object Recognition论文的方法对每张图像分块得到多个个Region proposals,然后对每个Region
proposal提取CNN特征,在采用线性svm进行分类,在VOC2012上面达到了 53.3%的mAP。

二、Object detection with R-CNN

1、模型框架

(1)获取Region proposals

采用Selective Search for Object Recognition论文的方法的快速模式获得。

(2)特征提取

采用开源代码caffe(他们是一个研究机构的)提取CNN特征,采用warp的方式把所有图像resize到227*227,因为caffe的输入图像的尺寸是固定的。

(3)分类器

采用线性SVM建立二分分类器。

2、训练

(1)监督的方式的预训练

采用caffe程序在ILSVRC 2012进行预训练,这个可以学习到大规模的数据集的基本特征,将这些参数作为调优的初始画参数,已解决深度学习中针对特征任务数据量小的问题。

(2)针对特定任务的调优

用Region proposals作为训练集,把和ground-truth box的IoU大于0.5的作为正样本,其余作为负样本;每个Region
proposal,resize到227*227;caffe的构架不用变,只需要将最后一层的1000类输出改为21类(20类+1类背景),同时把第八层的相应名字修改了(随便取);以0.001的学习率开始SGD,每个min-batch由32个正样本窗口和96的背景窗口组成的128个Region
proposals,这样做的目的是为了平衡正负样本的差距问题,因为Selective Search产生的负样本非常多。

(3)训练Object分类器

由于正负样本的数量极多,并且比例严重失衡,正样本少,负样本多。正对这个问题采用standard hard negative mining
method训练二分类器。初始化的时候,选择ground-truth box的样本作为正样本,把与ground-truth box的IoU小于0.3的作为负样本,采用线性SVM更新模型。

三、实验结果

1、Detection average precision (%) on VOC 2010 test.

2、Detection average precision (%) on VOC 2007 test

四、总结

我这里主要是描述了Detection的工作,文章里面还有很多知识点,比如Visualization, ablation, and  modes
of error,Bounding box regression,Semantic segmentation等,这里不再详解,可以参考论文理解。本文的方法的主要框架思路还是很明晰,对每个小框提取CNN特征,解决多标签问题。不过这种方法需要花费大量的时间在实际应用中可能现实,不过有更快速的方法已经提出,可以参考我的博客《CNN:
Single-label to Multi-label》。之所以后详解这篇论文的代码是开源的,同时我也刚把这篇论文应用到自己的项目当中花费了大量时间,结果还没有出来。而这篇《CNN:
Single-label to Multi-label》的代码还没有公布,本人的能力有限还没有实现。

Rich feature hierarchies for accurate object detection and semantic segmentation

时间: 2024-08-02 16:59:47

Rich feature hierarchies for accurate object detection and semantic segmentation的相关文章

Rich feature hierarchies for accurate object detection and semantic segmentation(理解)

0 - 背景 该论文是2014年CVPR的经典论文,其提出的模型称为R-CNN(Regions with Convolutional Neural Network Features),曾经是物体检测领域的state-of-art模型. 1 - 相关知识补充 1.1 - Selective Search 该算法用来产生粗选的regions区域,在我的另一篇博文Selective Search for Object Recognition(理解)中进行详细讲解. 1.2 - 无监督预训练&有监督预训

论文解读1——Rich feature hierarchies for accurate object detection and semantic segmentation

背景 在2012 Imagenet LSVRC比赛中,Alexnet以15.3%的top-5 错误率轻松拔得头筹(第二名top-5错误率为26.2%).由此,ConvNet的潜力受到广泛认可,一炮而红.既然convNet在图像分类任务上能取得好成绩,是不是也能放到目标检测任务上呢.本文就是用convNet解决目标检测任务的首次探索.在PASCAL VOC 2010上的mAP达到了53.7%. 方法 模型一共分为三个模块. (1)region proposals(区域推荐)).在一张整图上面产生很

[论文理解]Region-Based Convolutional Networks for Accurate Object Detection and Segmentation

Region-Based Convolutional Networks for Accurate Object Detection and Segmentation 概括 这是一篇2016年的目标检测的文章,也是一篇比较经典的目标检测的文章.作者介绍到,现在表现最好的方法非常的复杂,而本文的方法,简单又容易理解,并且不需要大量的训练集. 文章的大致脉络如图. 产生region proposal 文章提到了滑窗的方法,由于滑窗的方法缺点非常明显,就是每次只能检测一个aspect ratio,所以确

论文: Feature Pyramid Networks for Object Detection

论文阅读: Feature Pyramid Networks for Object Detection Feature Pyramid 是提取图像特征领域的很重要的概念.在深度学习领域没有被提及是因为目前深度学习仍然受到计算量的限制. 本论文根据不同的feature maps给出了 Feature Pyramid Network,因为 Featrue Pyramid的尺度不变性,可以有效的解决Object Detection 中的目标物体不一致大小的问题. 熟悉图像处理的都知道 sift 算法,

【Network Architecture】Feature Pyramid Networks for Object Detection(FPN)论文解析(转)

目录 0. 前言 1. 博客一 2.. 博客二 0. 前言 ??这篇论文提出了一种新的特征融合方式来解决多尺度问题, 感觉挺有创新性的, 如果需要与其他网络进行拼接,还是需要再回到原文看一下细节.这里转了两篇比较好的博客作为备忘. 1. 博客一 这篇论文是CVPR2017年的文章,采用特征金字塔做目标检测,有许多亮点,特来分享. 论文:feature pyramid networks for object detection 论文链接:https://arxiv.org/abs/1612.031

Acquistion Location Confidence for accurate object detection

Acquistion Location Confidence for accurate object detection 本论文主要是解决一下两个问题: 1.分类得分高的预测框与IOU不匹配,(我猜应该是训练数据集导致的) 2.基于回归的边框修正是非单调的,缺乏可解释性. 贡献点 IoU-guided NMS Optimization refine PRpooling 1.IoU-guided NMS (1)传统 NMS :  根据边界框的分类置信度排序,每次选择cls score最大的框,并对

Parallel Feature Pyramid Network for Object Detection

ECCV2018 总结: 文章借鉴了SPP的思想并通过MSCA(multi-scale context aggregation)模块进行特征融合从而提出PFPNet(Parallel Feature Pyramid Network)算法来提升目标检测的效果. 1.使用spp模块通过扩大网络宽度而不是增加深度来生成金字塔形特征图 2.提出msca模块,有效地结合了大不相同规模的上下文信息 3.效果好:82.3% (Pascal VOC 2007), 80.3% (PASCAL VOC 2012),

论文阅读 | FPN:Feature Pyramid Networks for Object Detection

论文地址:https://arxiv.org/pdf/1612.03144v2.pdf 代码地址:https://github.com/unsky/FPN 概述 FPN是FAIR发表在CVPR 2017上的一篇文章,采用特征金字塔的方法进行目标检测.文中利用深层卷积网络固有的多尺度金字塔层次结构,高效地构造特征金字塔.文章提出了FPN--一种具有横向连接的自顶向下的结构,来构建所有尺度上的高级语义特征映射. 网络结构 下图展示了几种不同的利用特征的方式:(a)为图像金字塔,就是对图像resize

【论文笔记】Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

写在前面: 我看的paper大多为Computer Vision.Deep Learning相关的paper,现在基本也处于入门阶段,一些理解可能不太正确.说到底,小女子才疏学浅,如果有错误及理解不透彻的地方,欢迎各位大神批评指正! E-mail:[email protected]. ------------------------------------------------ <Faster R-CNN: Towards Real-Time Object Detection with Reg