论文笔记之：Instance-aware Semantic Segmentation via Multi-task Network Cascades

Instance-aware Semantic Segmentation via Multi-task Network Cascades

Jifeng Dai Kaiming He Jian Sun

本文的出发点是做Instance-aware Semantic Segmentation，但是为了做好这个，作者将其分为三个子任务来做：

1) Differentiating instances. 实例区分

2) Estimating masks.　　　　掩膜估计

3) Categorizing objects.　　分类目标

通过这种分解，作者提出了如下的多任务学习框架，即：Multi-task Network Cascades (MNCs)，示意流程如下：

下面详细的介绍下这个流程，即：Multi-task Network Cascades

1. Regressing Box-level Instances

　　第一个阶段是回归出物体的bbox，这是一个全卷积的子网络。本文follow了Faster R-CNN的提取proposal的方法Region Proposal Networks (RPNs)。在共享feature之前，作者先用了一个 3*3的Conv 用于降维，紧跟着用2个1*1的Conv层回归出其位置，并且对目标进行分类。该阶段的loss function是：

其中，B是该阶段的输出，是一系列的box，B = { Bi }, Bi = { xi; yi; wi; hi; pi }，box的中心点和长宽分别是：xi yi wi hi, yi是物体的概率。

2. Regressing Mask-level Instances

　　该阶段的输出是对每一个box的proposal进行像素级的mask分割。

　　 Given a box predicted by stage 1, we extract a feature of this box by Region-of-Interest (RoI) pooling . The purpose of RoI pooling is for producing a fixed-size feature from an arbitrary box, which is set as 14*14 at this stage.　(给定阶段1产生的box，我们用RoI pooling的方法提取该box的特征。用RoI pooling的原因是从一个任意的box中产生一个固定长度的feature。）

　　在每一个box的feature之后，添加两个fc层，第一个fc将维度降到256，第二个fc 回归出像素级的mask。

　　第二阶段的loss function符合下面的形式：

　　其中，M是该阶段的输出，该阶段的loss不仅依赖于M，而且依赖于B。

时间： 2024-12-19 02:04:40

论文笔记之：Instance-aware Semantic Segmentation via Multi-task Network Cascades

论文笔记之：Instance-aware Semantic Segmentation via Multi-task Network Cascades的相关文章

Review of Semantic Segmentation with Deep Learning

论文阅读笔记：Fully Convolutional Networks for Semantic Segmentation

论文笔记《Feedforward semantic segmentation with zoom-out features》

论文笔记《Fully Convolutional Networks for Semantic Segmentation》

【论文笔记】A Review on Deep Learning Techniques Applied to Semantic Segmentation

论文笔记之：Decoupled Deep Neural Network for Semi-supervised Semantic Segmentation

Fully Convolutional Networks for semantic Segmentation（深度学习经典论文翻译）

RCNN学习笔记(8)：Fully Convolutional Networks for Semantic Segmentation(全卷积网络FCN）

FCN笔记（Fully Convolutional Networks for Semantic Segmentation）