论文-ION--Inside-Outside Net: Detecting Objects in Context with Skip

Inside-Outside Net: Detecting Objects in Context with Skip

本文的关键词是: contextual information, multi-scale representations

使用 contextual information,是通过 spatial recurrent neural network来实现对outside the region of interest 的信息的提取。

对multi-scale representation,使用skip pooling来对不同scale不同level的特征的提取,并且concatenate融合

ION的网络结构:

(1), spatial Recurrent Neural Network (RNNs)

RNNs在每一层空间上,通过水平或者垂直的四个方向进行提取上下文信息。使用两个RNNs,保证可以获取整张image的信息。

对比其他common methods for adding contextual information:
还有 global average pooling 和 additional convolutional layers,都很相似。

(2), skip pooling

将multi-scale的feature maps经过roi-pooling layer之后pooling到7x7大小的feature maps,将从不同scale pooled得到的feature maps进行concatenate,然后再利用 1x1Conv layer将feature maps resize到512x7x7的大小。

(3), context features
with IRNNs

对于一个feature maps,有四个独立的RNN对其进行上下左右四个方向的移动。

其中IRNN的update为:

为了保持IRNN的多样性和简单性, 固定隐层转移矩阵为单位矩阵,可以有:

这种操作类似relu操作。

总结:

(1),  paper 使用了multi-scale 进行object detection,在浅层Conv层对其feature maps进行roi-pooling, 增强了对small object的detect能力。

(2),使用了RNN对其周围的region的信息,增强feature信息,促进classification。

时间: 2024-10-12 14:20:16

论文-ION--Inside-Outside Net: Detecting Objects in Context with Skip的相关文章

[论文理解] CornerNet: Detecting Objects as Paired Keypoints

[论文理解] CornerNet: Detecting Objects as Paired Keypoints 简介 首先这是一篇anchor free的文章,看了之后觉得方法挺好的,预测左上角和右下角,这样不需要去管anchor了,理论上也就w*h个点,这总比好几万甚至好几十万的anchor容易吧.文章灵感来源于Newell et al. (2017) on Associative Embedding in the context of multi-person pose estimation

读论文 《TransForm Mapping Using Shared Decision Tree Context Clustering for HMM-based Cross-Lingual Speech Synthesis》(1)

3. Cross-lingual speaker adaptation using STC with a bilingual corpus 第一段 问题1,为什么要用双语语料库,双语语料库是同一个说话人的吗? cross-lingual speaker adaptation的开山鼻祖是Yijiang Wang的论文,而且也实现了代码,在HTS 2.2中. Yijiang Wang的做法是基于state mapping的,而本文作者的做法是基于STC,然后加上双语语料库 注意一点,本文作者与Yij

读论文 《TransForm Mapping Using Shared Decision Tree Context Clustering for HMM-based Cross-Lingual Speech Synthesis》(2)

3   Cross-lingualspeakeradaptationusing STC with a bilingual corpus 第一段: In the state mapping technique described in the previous section, the mismatch of language characteristics affects the mapping performance of transformation matrices because onl

读论文 《TransForm Mapping Using Shared Decision Tree Context Clustering for HMM-based Cross-Lingual Speech Synthesis》(3)

3.1. Shareddecisiontreecontextclustering(STC) STC [11] was originally proposed to avoid generating speaker-biased leaf nodes in the tree construction of an average voice model. 果然,这里作者说了一下STC技术的出处在什么地方 然后简单的介绍了STC技术是用来解决什么问题的 在average voice model的树的构

CVPR2016目标检测之识别精度篇:ReNet, ION, HyperNet

参考文献 [1] He K, Zhang X, Ren S, et al. Deep residual learning for image recognition. In CVPR 2016 [2] Bell S, Zitnick C L, Bala K, et al. Inside-outside net: Detecting objects in context with skip pooling and recurrent neural networks. In CVPR 2016 [3

深度卷积神经网络在目标检测中的进展

作者:travelsea链接:https://zhuanlan.zhihu.com/p/22045213来源:知乎著作权归作者所有.商业转载请联系作者获得授权,非商业转载请注明出处. 近些年来,深度卷积神经网络(DCNN)在图像分类和识别上取得了很显著的提高.回顾从2014到2016这两年多的时间,先后涌现出了R-CNN,Fast R-CNN, Faster R-CNN, ION, HyperNet, SDP-CRC, YOLO,G-CNN, SSD等越来越快速和准确的目标检测方法. 基于Reg

【目标识别】深度学习进行目标识别的资源列表

[目标识别]深度学习进行目标识别的资源列表:O网页链接 包括RNN.MultiBox.SPP-Net.DeepID-Net.Fast R-CNN.DeepBox.MR-CNN.Faster R-CNN.YOLO.DenseBox.SSD.Inside-Outside Net.G-CNN等.Papers Deep Neural Networks for Object Detection paper: http://papers.nips.cc/paper/5207-deep-neural-netw

中文版 R-FCN: Object Detection via Region-based Fully Convolutional Networks

R-FCN: Object Detection via Region-based Fully Convolutional Networks 摘要 我们提出了基于区域的全卷积网络,以实现准确和高效的目标检测.与先前的基于区域的检测器(如Fast/Faster R-CNN [6,18])相比,这些检测器应用昂贵的每个区域子网络数百次,我们的基于区域的检测器是全卷积的,几乎所有计算都在整张图像上共享.为了实现这一目标,我们提出了位置敏感分数图,以解决图像分类中的平移不变性与目标检测中的平移变化之间的困

Awesome Deep Vision

Awesome Deep Vision  A curated list of deep learning resources for computer vision, inspired by awesome-php and awesome-computer-vision. Maintainers - Jiwon Kim, Heesoo Myeong, Myungsub Choi, Jung Kwon Lee, Taeksoo Kim We are looking for a maintainer