论文笔记之:Fully Convolutional Attention Localization Networks: Efficient Attention Localization for Fine-Grained Recognition

Fully Convolutional Attention Localization Networks:

Efficient Attention Localization for Fine-Grained Recognition

 

  细粒度的识别(Fine-grained recognition)的挑战性主要来自于 类内差异(inter-class differences)在细粒度类别中通常是局部的,细微的;类间差异(intra-class differences)由于姿态的变换而导致很大。为了从类间变化区分他们,放大到具有高度判别性的局部区域是非常重要的。本文提出了一种基于强化学习的全卷积注意力局部网络来自适应的选择多任务驱动的视觉注意力区域 (In this work, we introduce a reinforcement learning-based fully convolutional attention localization network to adaptively select multiple task-driven visual attention regions.) 作者的实验表明将相关区域放大处理,可以得到更好的结果,这一点就相当于我们人类看东西的时候,当全局看的不是很仔细的时候,就需要放大镜来看,从局部得到所需要的信息,从而做出进一步的判断。本文在三个数据集上做了实验,分别是:斯坦福dog, cars, CUB-200-2011。

  前人的工作大多是使用手工设计的 part 来进行 fine-grained recognition。依赖于手工定义的part有几个缺点:

  1. 精确的part 标注需要非常昂贵的代价;

  2. 强监督的基于part的模型可能在part被遮挡时,失效;

  3. 最后但也是最重要的,即:没有线索表明,手工设计的part对于所有的 fine-grained recognition tasks来说是最优的。例如:对于食物的识别来别,是非常难以设计part的。

  针对以上问题,本文提出了一种框架,即:Fully Convolutional Attention Localization Network 来定位物体的part,而没有任何人工的标注。本文利用基于强化学习的视觉 attenation model 来模拟学习定位物体的part,并且在场景内进行物体分类。这个框架模拟人类视觉系统的识别过程,通过学习一个任务驱动的策略,经过一系列的 glimpse 来定位物体的part。那么,这里的 glimpse 是什么呢?每一个 glimpse 对应一个物体的part。将原始的图像以及之前glimpse 的位置作为输入,下一次 glimpse位置作为输出,作为下一次物体part。每一个 glimpse的位置作为一个 action,图像和之前glimpse的位置作为 state,奖励衡量分类的准确性。本文方法可以同时定位多个part,之前的方法只能一次定位一个part,但是仔细想想,也奇怪,既然是 attenation model,那么像人类一样,一次只能将目光注意到一个地方,只定位一个part也是正常且合理的,这里搞一个多个part的同时定位,有点不太合理。

  



  Fully Convolutional Attention Localization Networks

  该网络结构可以借助 attention mechanism 来同时定位多个物体的part。不同的part可以拥有不同的预先定义的尺寸,主要包含两个成分:Part localization component and classification component.

  从上图可以看到,

  

时间: 2024-07-29 22:24:01

论文笔记之:Fully Convolutional Attention Localization Networks: Efficient Attention Localization for Fine-Grained Recognition的相关文章

论文笔记《Fully Convolutional Networks for Semantic Segmentation》

<Fully Convolutional Networks for Semantic Segmentation>,CVPR 2015 best paper,pixel level, fully supervised. 主要思路是把CNN改为FCN,输入一幅图像后直接在输出端得到dense prediction,也就是每个像素所属的class,从而得到一个end-to-end的方法来实现image  semantic segmentation. 我们已经有一个CNN模型,首先要把CNN的全连接层

FCN笔记(Fully Convolutional Networks for Semantic Segmentation)

FCN笔记(Fully Convolutional Networks for Semantic Segmentation) (1)FCN做的主要操作 (a)将之前分类网络的全连接层都换成卷积层, FCN将全连接层换成了卷积层,最后可以生成一个heatmap.卷积层的大小即为 (1,1,4096).(1,1,4096).(1,1,1000).FCN在做前向和后向计算时,都比之前的方法要快,FCN生成一个10*10的结果,需要22ms,而之前的方法生个1个结果,就需要1.2ms,如果是100个结果,

论文阅读 | FCOS: Fully Convolutional One-Stage Object Detection

论文阅读——FCOS: Fully Convolutional One-Stage Object Detection 概述 目前anchor-free大热,从DenseBoxes到CornerNet.ExtremeNet,以及最近的FSAF.FoveaBox,避免了复杂的超参数设计,而且具有很好的检测效果.本文作者提出了一种全卷积的单阶段目标检测算法,类似于语义分割的做法使用像素级预测.该检测框架简单有效,而且可以方便地用于其他任务. 简介 再啰嗦一下基于anchor的检测算法的缺陷: 1.检测

论文阅读笔记:Fully Convolutional Networks for Semantic Segmentation

这是CVPR 2015拿到best paper候选的论文. 论文下载地址:Fully Convolutional Networks for Semantic Segmentation 尊重原创,转载请注明:http://blog.csdn.net/tangwei2014 1.概览&主要贡献 提出了一种end-to-end的做semantic segmentation的方法,简称FCN. 如下图所示,直接拿segmentation 的 ground truth作为监督信息,训练一个端到端的网络,让

论文学习:Fully Convolutional Networks for Semantic Segmentation

发表于2015年这篇<Fully Convolutional Networks for Semantic Segmentation>在图像语义分割领域举足轻重. 1 CNN 与 FCN 通常CNN网络在卷积层之后会接上若干个全连接层, 将卷积层产生的特征图(feature map)映射成一个固定长度的特征向量.以AlexNet为代表的经典CNN结构适合于图像级的分类和回归任务,因为它们最后都期望得到整个输入图像的一个数值描述(概率),比如AlexNet的ImageNet模型输出一个1000维的

【论文笔记】Learning Convolutional Neural Networks for Graphs

Learning Convolutional Neural Networks for Graphs 2018-01-17  21:41:57 [Introduction] 这篇 paper 是发表在 ICML 2016 的:http://jmlr.org/proceedings/papers/v48/niepert16.pdf 上图展示了传统 CNN 在 image 上进行卷积操作的工作流程.(a)就是通过滑动窗口的形式,利用3*3 的卷积核在 image 上进行滑动,来感知以某一个像素点为中心

论文笔记 Densely Connected Convolutional Networks

首先我们从宏观的角度理解一下这篇论文做了什么.这篇论文引入了一个"Dense Block",该模块的的组成如下图所示(要点就是,Input输入到后续的每一层,每一层都输入到后续层) 在实际应用的时候,如果我们将"Dense Block"作为一个building block,那么可以按照如下的方式构建深度网络结构(是不是一下子就理解了这篇文章做了什么?).  下面我们来分析一下这个"Dense Block"的一些特点 "Dense Blo

Convolutional Deep Belief Networks 卷积深信度网络 论文笔记

参考论文:1.Convolutional Deep Belief Networks for Scalable Unsupervised Learning of Hierarchical Representations                   2.Stacks of Convolutional Restricted Boltzmann Machinesfor Shift-Invariant Feature Learning 预备知识:http://blog.csdn.net/zouxy

RCNN学习笔记(8):Fully Convolutional Networks for Semantic Segmentation(全卷积网络FCN)

[论文信息] <Fully Convolutional Networks for Semantic Segmentation> CVPR 2015 best paper Reference link: http://blog.csdn.net/tangwei2014 http://blog.csdn.net/u010025211/article/details/51209504 概览&主要贡献 提出了一种end-to-end的做semantic segmentation的方法,简称FC