论文阅读: Feature Pyramid Networks for Object Detection
Feature Pyramid 是提取图像特征领域的很重要的概念。在深度学习领域没有被提及是因为目前深度学习仍然受到计算量的限制。
本论文根据不同的feature maps给出了 Feature Pyramid Network,因为 Featrue Pyramid的尺度不变性,可以有效的解决Object Detection 中的目标物体不一致大小的问题。 熟悉图像处理的都知道 sift 算法,其中 sift 的Pyramid很好的解决了 multi-scale 的问题。
从上图可以看出, fpn 充分提取了多个layer的feature maps的特征。针对每一个{p2, p3, p4},都进行一个prediction。high-resolution 的featrue map有着 low-level 的featrue ,这些featrue的表达能力稍微弱点。
本paper的亮点就是将low-resolution,semantically strong feature的feature map和 high-resolution,weak featrue的feature map 通过 top-down pathway 和 lateral connections结合起来。 使得每一个feature Pyramid 都含有丰富的,all-level的sematics。
整个fpn包含三个部分 bottom-up pathway, top-down pathway 和 lateral connection。
bottom-up pathway 就是典型的Network的forward, paper采用的是resnet的(last residual block)不同stage的最后一层concatenate layer作为 reference layer。其中的 {C2,C3, C4, C5} 对应的是Conv2, Conv3, Conv4 和 Conv5的output。
top-down pathway采用的是upsample method, 进行 2x Up 的操作,使得后面的feature map upsample 到和前一阶段的 feature map有着相同的size。 对于low-level的feature map,因为其lower level 的semantic,subsample的次数更少,它的activation也更加精确地localized。
lateral connection的作用是使用 1x1的Conv对low-level的featrue map进行降低维度,使得维度跟后一层top-down下来的feature map的维度一致,从而做element-wise addition。
应用:
用在 RPN, 可以提取多个维度的feature map的anchor,增加了feature的表达。
用在Fast RCNN,就是将 ROI 打在不同scale的Pyramid level上,最后统一roi-pooling到特定的scale,做CNN classification。 并且给出了经验值挑选方式:
论文的关键点: 引入Pyramid,同时保证整个Network的计算增量尽可能小。增强feature representation。