Rethinking场景分析中的空间池化 | Strip Pooling(CVPR2020,何恺明)

作者:Tom Hardy

Date:2020-04-04

来源:Rethinking场景分析中的空间池化 | Strip Pooling(CVPR2020,何恺明)

原文链接:https://arxiv.org/abs/2003.13328v1

代码链接:https://github.com/Andrew-Qibin/SPNet

主要思想和Contributions

Spatial pooling在捕获像素级预测任务(如场景解析)的long-range contextual信息方面已被证明是非常有效的。本文在传统的N×N型Spatial pooling的基础上,提出了一种考虑狭长核(1×N或N×1)的strip pooling策略,对Spatial pooling的形成进行了重新思考。基于strip pooling,进一步研究了Spatial pooling体系结构设计,本文的主要贡献:

1)引入了一个新的strip pooling模块,使backbone网络能够有效地模拟long-range依赖关系;

2)提出了一种以多种Spatial pooling为核心的新型模块MPM,并构建了SPNet;

3)系统地比较了所提出的strip pooling和传统Spatial pooling技术的性能;

这两种新的基于pooling的模块都是轻量级的,可以作为现有场景解析网络中的一个有效的即插即用模块。在ADE20K和CityScapes上进行的大量实验表明,本文的方法达到了SOTA。

网络结构

1、Strip pooling(SPM)

1. 如下图所示,使用Hx1和1xW尺寸的条状池化核进行操作,对池化核内的元素值求平均,并以该值作为池化输出值。

2. Hx1和1xW池化核处理后,使用1D Conv对两个输出feature map分别沿着左右和上下进行扩容,如下图所示,扩容后两个feature map尺寸相同,进行fusion(element-wise上的add)。

3. 采用element-wise multiplication的方式对原始数据和sigmoid处理后的结果进行处理,至此,strip pooling完成,输出结果。

2、MPM(Mixed Pooling Module)

这是本文独立于SPM之外的另外一个模块,具体来说,在每个子模块之前,首先是1×1卷积层用于channel缩减,如下图所示,两个子模块的输出串联在一起,然后送入另一个1×1卷积层进行channel扩展。

3、SPNet

论文基于SPM和MPM模块搭建了一个网络:SPNet,以残差网络作为backbone,详细结构请参考原文。

实验结果

论文在ADE20K、Cityscapes和Pascal Context数据集上进行了实验。

原文地址:https://www.cnblogs.com/YongQiVisionIMAX/p/12630769.html

时间: 2024-11-05 21:55:49

Rethinking场景分析中的空间池化 | Strip Pooling(CVPR2020,何恺明)的相关文章

图像平均池化 pytorch库中的平均池化

一. 池化简介 平均池化:将图片按照固定大小网格分割,网格内的像素值取网格内所有像素的平均值. 池化:使用均等大小的网格将图片分割,并求网格内代表值的过程. 池化是卷积神经网络(convolutional neural network)中非常重要的处理方式,能够有效地降低图像的维度. 平均池化定义: 二. 将输入图像用4*4网格做平均池化 import cv2 import numpy as np # average pooling def average_pooling(img, G=4):

卷积特征提取与池化(Pooling)——处理大型图像

在之前的章节中,我们已经很好地解决了手写体识别问题(维数为28*28).但如果是更大的图像(维数为96*96)呢?如果你还是要学习400个特征,那么网络权重参数就有400*96*96即近400万个. 卷积特征提取 如果我们从大型彩色图像(64*64*3)中随机抽取一些小patch(8*8),学到了一些特征,然后用这些特作为滤波器去扫过整张大图,即逐行逐列做卷积.这样做可以大幅减小网络参数W的数量,然而会使输入分类器的特征维数大幅度上升. 池化 池化是在卷积特征提取的基础上,对每个卷积特征进行取平

关于池化(pooling)理解!!!

网上看到一个池化的解释是: 为了描述大的图像,可以对不同位置的特征进行聚合统计,如计算平均值或者是最大值,即mean-pooling和max-pooling 我的想法是,图像做卷积以后,将图像信息(特征)变强了,这时候允许减小图像的尺寸(因为卷积增强了信息,现在又牺牲 一点信息,达到数据尺寸减小但信息不一定减少),这就是类似于先做加法(卷积),再做减法(池化,典型下采样),一加一减, 加的时候图像尺寸没加,信习量加了,减的时候图像尺寸和信息量减,总体是吧,总体可能就可以用了. 池化,就是把某一区

基于差分池化的分层图表示方法概述

声明 本篇论文的主要内容来自于斯坦福大学的博士生Rex Ying,论文名称为:Hierarchical Graph Representation Learning withDifferentiable Pooling.论文地址:点击下载.但需要说明的是本篇文正并不是对论文的翻译,书中大部分内容是作者对论文理解,当然可能个人水平有限,中间难免会出现一些错误,如若发现恳请指出,不胜赐教. 背景 近年来人们对卷积神经网的研究越来越热门化,其成果被广泛应用于计算机视觉.自然语言处理等诸多领域.但是人们深

Spatial pyramid pooling (SPP)-net (空间金字塔池化)笔记(转)

在学习r-cnn系列时,一直看到SPP-net的身影,许多有疑问的地方在这篇论文里找到了答案. 论文:Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition 转自:http://blog.csdn.net/xzzppp/article/details/51377731 另可参考:http://zhangliliang.com/2014/09/13/paper-note-sppnet/ http:/

空间金字塔池化(Spatial Pyramid Pooling,SPP)

基于空间金字塔池化的卷积神经网络物体检测 原文地址:http://blog.csdn.net/hjimce/article/details/50187655 作者:hjimce 一.相关理论 本篇博文主要讲解大神何凯明2014年的paper:<Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition>,这篇paper主要的创新点在于提出了空间金字塔池化.paper主页:http://researc

使用excel进行数据挖掘(5)---- 应用场景分析

在配置环境后,可以使用excel进行数据挖掘. 环境配置问题可参阅: http://blog.csdn.net/xinxing__8185/article/details/46445435 样例 DMAddins_SampleData.xlsx 文件下载地址:http://download.csdn.net/detail/xinxing__8185/8780481 在数据表中,选择table analysis tools sample表,该表中是用户的信息统计,包括婚姻状况,性别,收入,子女,教

1.字符串池化(intern)机制及拓展学习

1.字符串intern机制 用了这么久的python,时刻和字符串打交道,直到遇到下面的情况: a = "hello" b = "hello" print(a is b) #--->True print(a == b) #---> True a = "hello world" b = "hello world" print(a is b) # ---> False print(a == b) # --->

CNN之池化层tf.nn.max_pool|tf.nn.avg_pool|tf.reduce_mean

摘要:池化层的主要目的是降维,通过滤波器映射区域内取最大值.平均值等操作. 均值池化:tf.nn.avg_pool(input,ksize,strides,padding) 最大池化:tf.nn.max_pool(input,ksize,strides,padding) input:通常情况下是卷积层输出的featuremap,shape=[batch,height,width,channels]              假定这个矩阵就是卷积层输出的featuremap(2通道输出)  他的s