【语义分割】PointRend

方法

输入是CxWxH的特征图,特征图是原图的1/4或1/16;输出是比输入分辨率更大的ont-hot编码形式的特征图,KxW‘xH‘。

模块具体有如下的三步:

  1)选择少数的一些点进行预测,避免在高分辨率的输出中过量的计算所有的像素

  2)每个被选中的点,点的特征被提取,真值点的特征被计算通过双线性插值,然后沿着通道维度编码子像素信息预测分割

  3)head:接一个小的网络,进行预测

训练和测试中如何选点

  测试:选点工作主要是受图形学中adaptive subdivision的启发,adaptive subdivision的主要思想是通过只计算那些最可能与周围像素不同的点去高效的渲染图像,所有其他的位置,都通过插值的方法计算输出的值。每一步,我们迭代的渲染输出的mask,也就是需要经过一个coarse-to-fine的过程。coarse的预测是由分割的head得到的。在每次的迭代中,PointPend使用双线性插值上采样前一步分割预测结果,然后在这个更密集的特征图中选择N个最不确定的点,比方说概率接近0.5的点。然后计算这N个点的特征表示并且预测它们的lables。这个过程一直被重复,直到上采样到需要的大小。其中的一次迭代如下图所示:

  对于M0xM0的输入,想要得到MxM的输出。PointRend要求不超过Nlog2(M/M0)个点的预测,这个值比MxM小的多,这样可以减少计算量。例如:M0=7,M=224,执行5部subdivision。选择N=28*28,PointRend仅仅会预测28*28*4.25个点,比224*224的1/15还小。

  训练:训练过程中PointRend选择一些点然后重构他们的特征。原则上,选择策略与推理时应该一样,但是由于subdivision的操作是不可微的,没办法直接嵌入到具有BP的网络中训练,因此,训练过程中,使用基于随机采样的非迭代策略。在特征图上选择N个点(这里的N与推理时的N不同),它用来选择不确定的区域,同时保持一定程度的统一覆盖,使用如下三个原则:

  1)Over generation: 在均匀分布中随机采样over-generation kN个点候选点(k>1)

  2)Importance sampling: 重点关注着插值后kN个候选点中不确定的点并且对不确定性进行估计。在kN中选择βN个最不确定的点,β∈[0, 1]

  3)Coverage:剩下的(1-β)N个点从均匀分布采样

  训练的时候,预测值和损失函数仅仅在N个采样点上计算,更加高效比BP通过subdivide步骤。这个设计类似于Faster R-CNN中的 RPN+Fast R-CNN。

特征重建的Point-wise特征表示和进行预测的Point Head

  PointRend重建特征通过结合细粒度的特征和粗糙的预测概率。

  细粒度的特征:为了使得PointRend渲染好的分割细节,从特征图的每个采样点提取特征向量。因为一个点有一个2D的坐标系,在特征图上使用双线性插值计算特征向量。可以使用单尺度的特征图,仅仅只用resnet第2个残差块得到的特征图,也可以使用多尺度的特征图,同时使用resnet第2到第5个残差块的特征图。

  粗糙预测图:细粒度的特征可以加强细节信息,但是在两方面是不足的。第一,他们不能得到包含明确区域的信息, 因此两个示例的边界框重叠的点有相同的细粒度特征。这个点也可以仅仅是一个实例的前景,因此,对于实例分割任务,对于相同的点,不同的区域可能预测得到不同的label,因此需要其他须臾的特定信息。第二,由于细粒度的特征图可能仅仅包含一些low-level的信息。在这种情况下,具有更多上下文和语义信息的特征图是由帮助的。这个问题对实例分割和语义分割都有影响。基于上面这些考虑,第二个特征类型是一个粗糙的分割预测图,每个点有一个K为的向量表示K类的预测。粗糙预测图用来提供全局信息,然而通道传递语义类别。这些粗糙特征图与显存的结构相似,训练过程中被监督。对于实例分割任务而言,可以是Mask R-CNN mask head 7*7的输出,对于语义分割,可以是步长16的特征图。

  Point Head:给定每个选定点的point-wise特征表示,Head使用简单的多层感知机进行预测。在所有的点上MLP共享权重。类似于图卷积或者PointNet。

实验

  实例分割(COCO和cityscapes上进行)

    网络结构:MaskR-CNN ResNet50 + FPN,默认的mask head是 region-wise FCN

    

    

原文地址:https://www.cnblogs.com/Trevo/p/12172615.html

时间: 2024-08-06 14:40:28

【语义分割】PointRend的相关文章

深度卷积网络CNN与图像语义分割

转载请注明出处: http://xiahouzuoxin.github.io/notes/ 级别1:DL快速上手 级别2:从Caffe着手实践 级别3:读paper,网络Train起来 级别3:Demo跑起来 读一些源码玩玩 熟悉Caffe接口,写Demo这是硬功夫 分析各层Layer输出特征 级别4:何不自己搭个CNN玩玩 级别5:加速吧,GPU编程 关于语义分割的一些其它工作 说好的要笔耕不缀,这开始一边实习一边找工作,还摊上了自己的一点私事困扰,这几个月的东西都没来得及总结一下.这就来记录

caffe初步实践---------使用训练好的模型完成语义分割任务

caffe刚刚安装配置结束,乘热打铁! (一)环境准备 前面我有两篇文章写到caffe的搭建,第一篇cpu only ,第二篇是在服务器上搭建的,其中第二篇因为硬件环境更佳我们的步骤稍显复杂.其实,第二篇也仅仅是caffe的初步搭建完成,还没有编译python接口,那么下面我们一起搞定吧! 首先请读者再回过头去看我的<Ubuntu16.04安装配置Caffe>( http://www.cnblogs.com/xuanxufeng/p/6150593.html  ) 在这篇博文的结尾,我们再增加

关于图像语义分割的总结和感悟

转自:http://www.2cto.com/kf/201609/545237.html 前言 (呕血制作啊!)前几天刚好做了个图像语义分割的汇报,把最近看的论文和一些想法讲了一下.所以今天就把它总结成文章啦,方便大家一起讨论讨论.本文只是展示了一些比较经典和自己觉得比较不错的结构,毕竟这方面还是有挺多的结构方法了. 介绍 图像语义分割,简单而言就是给定一张图片,对图片上的每一个像素点分类 从图像上来看,就是我们需要将实际的场景图分割成下面的分割图: 不同颜色代表不同类别. 经过我阅读“大量”论

从特斯拉到计算机视觉之「图像语义分割」

作者:魏秀参链接:https://zhuanlan.zhihu.com/p/21824299来源:知乎著作权归作者所有.商业转载请联系作者获得授权,非商业转载请注明出处. 说起特斯拉,大家可能立马会想到今年5月份发生在特斯拉Model S自动驾驶上的一宗夺命车祸.初步的调查表明,在强烈的日照条件下,驾驶员和自动驾驶系统都未能注意到牵引式挂车的白色车身,因此未能及时启动刹车系统.而由于牵引式挂车正在横穿公路,且车身较高,这一特殊情况导致Model S从挂车底部通过时,其前挡风玻璃与挂车底部发生撞击

基于深度学习的图像语义分割技术概述之5.1度量标准

本文为论文阅读笔记,不当之处,敬请指正. A Review on Deep Learning Techniques Applied to Semantic Segmentation:原文链接 5.1度量标准 为何需要语义分割系统的评价标准? 为了衡量分割系统的作用及贡献,其性能需要经过严格评估.并且,评估须使用标准.公认的方法以保证公平性. 系统的多个方面需要被测试以评估其有效性,包括:执行时间.内存占用.和精确度. 由于系统所处背景及测试目的的不同,某些标准可能要比其他标准更加重要,例如,对于

(新)基于深度学习的图像语义分割技术概述之5.1度量标准

http://blog.csdn.net/u014593748/article/details/71698246 本文为论文阅读笔记,不当之处,敬请指正. A Review on Deep Learning Techniques Applied to Semantic Segmentation:原文链接 5.1度量标准 为何需要语义分割系统的评价标准? 为了衡量分割系统的作用及贡献,其性能需要经过严格评估.并且,评估须使用标准.公认的方法以保证公平性. 系统的多个方面需要被测试以评估其有效性,包

图像语义分割之FCN和CRF

http://blog.csdn.net/u012759136/article/details/52434826 前言 (呕血制作啊!)前几天刚好做了个图像语义分割的汇报,把最近看的论文和一些想法讲了一下.所以今天就把它总结成文章啦,方便大家一起讨论讨论.本文只是展示了一些比较经典和自己觉得比较不错的结构,毕竟这方面还是有挺多的结构方法了. 介绍 图像语义分割,简单而言就是给定一张图片,对图片上的每一个像素点分类 从图像上来看,就是我们需要将实际的场景图分割成下面的分割图:  不同颜色代表不同类

R-CNN论文翻译——用于精确物体定位和语义分割的丰富特征层次结构

原文地址 我对深度学习应用于物体检测的开山之作R-CNN的论文进行了主要部分的翻译工作,R-CNN通过引入CNN让物体检测的性能水平上升了一个档次,但该文的想法比较自然原始,估计作者在写作的过程中已经意识到这个问题,所以文中也对未来的改进提出了些许的想法,未来我将继续翻译SPPNet.fast-RCNN.faster-RCNN.mask-RCNN等一系列物体定位和语义分割领域的重要论文,主要作者都是Ross Girshick和Kaiming He. 用于精确物体定位和语义分割的丰富特征层次结构

图像语义分割的前世今生

  1998年以来,人工神经网络识别技术已经引起了广泛的关注,并且应用于图像分割.基于神经网络的分割方法的基本思想是通过训练多层感知机来得到线性决策函数,然后用决策函数对像素进行分类来达到分割的目的.这种方法需要大量的训练数据.神经网络存在巨量的连接,容易引入空间信息,能较好地解决图像中的噪声和不均匀问题.选择何种网络结构是这种方法要解决的主要问题. 图像分割是图像识别和计算机视觉至关重要的预处理.没有正确的分割就不可能有正确的识别. 这里先说一下图像语义分割和普通的图像分割的关系: 普通的图像