Inside-Outside Net: Detecting Objects in Context with Skip
本文的关键词是: contextual information, multi-scale representations
使用 contextual information,是通过 spatial recurrent neural network来实现对outside the region of interest 的信息的提取。
对multi-scale representation,使用skip pooling来对不同scale不同level的特征的提取,并且concatenate融合
ION的网络结构:
(1), spatial Recurrent Neural Network (RNNs)
RNNs在每一层空间上,通过水平或者垂直的四个方向进行提取上下文信息。使用两个RNNs,保证可以获取整张image的信息。
对比其他common methods for adding contextual information:
还有 global average pooling 和 additional convolutional layers,都很相似。
(2), skip pooling
将multi-scale的feature maps经过roi-pooling layer之后pooling到7x7大小的feature maps,将从不同scale pooled得到的feature maps进行concatenate,然后再利用 1x1Conv layer将feature maps resize到512x7x7的大小。
(3), context features
with IRNNs
对于一个feature maps,有四个独立的RNN对其进行上下左右四个方向的移动。
其中IRNN的update为:
为了保持IRNN的多样性和简单性, 固定隐层转移矩阵为单位矩阵,可以有:
这种操作类似relu操作。
总结:
(1), paper 使用了multi-scale 进行object detection,在浅层Conv层对其feature maps进行roi-pooling, 增强了对small object的detect能力。
(2),使用了RNN对其周围的region的信息,增强feature信息,促进classification。