一. 背景介绍
语义分割(Semantic Segmentation):对一张图片上的所有像素点进行分类,同一物体的不同实例不需要单独分割出来。
实例分割(Instance Segmentation):目标检测(比b-box更精确到边缘)和语义分割(标出同类不同个体)的结合。
全景分割(Panoramic Segmentation):语义分割和实例分割的结合,背景也要检测和分割。
图像分割是图像理解的重要基石,在自动驾驶、无人机、工业质检等应用中都有着举足轻重的地位。缺陷检测论文现在好多都是借助语义分割方法做的迁移应用到实际的工业现场等,比如国外知名的VIDI软件、国内一些检测软件。
二. 语义分割
1. 【UNet】
结构:
Unet主要针对生物医学图像分割。继承FCN的思想。整体结构就是先编码(下采样),对图像的低级局域像素值进行归类与分析,从而获得高阶语义信息; 再解码(上采样),收集这些语义信息,并将同一物体对应到相应的像素点上,回归到跟原始图像一样大小的像素点的分类。
encoder的基本单元是:两个valid卷积层(图像size会减小)接一个max pooling(2x2)下采样(1/2);
decoder的基本单元是:[up-conv(2x2)+skip connection]接两个valid卷积层。
U-Net的skip connection不同于FCN的对应像素求和,是对channel的concat(拼接)过程。Unet上采样部分可以用上采样或转置卷积,这里详细解释下up-conv转置卷积。
实际在计算机中,并不是逐像素滑动计算,效率太低。而是将卷积核转换成等效的矩阵,通过输入向量和卷积核矩阵相乘获得输出向量。如图,input:4x4,Kernel:3x3,Padding/Stride:0,output:2x2,卷积核要在输入的不同位置卷积4次,通过补零将卷积核分别置于一个4x4矩阵的四个角落,这样输入可以直接和这四个4x4的矩阵进行卷积,取代了滑窗操作。将输入展开为[16,1]向量X,输出矩阵记作Y([4,1]),四个4x4卷积核分别展开并拼接成卷积矩阵C([16,4])。普通的卷积运算可表示为矩阵运算:XT * C = YT。
我们将一个1x16的行向量乘以16x4的矩阵,得到了1x4的行向量。反过来,在需要输入一个小的特征,输出更大尺寸的特征时,将一个1x4的向量乘以一个4x16的矩阵就能得到一个1x16的行向量,这就是转置卷积的思想。根据普通卷积,公式改写为:YT * CT = XT。
普通卷积和转置卷积这两个操作不可逆,同一个卷积核在转置卷积操作之后不能恢复原始数值,只恢复形状。相同的形状就足够了,在训练中我们可以学习卷积核对应的权值来还原图像。
关键策略:
(1).Deep Supervision。
4次上采样,并在各阶段使用skip connection,而不是直接在high-level特征上训练,保证了最后恢复出来的特征图融合了更多的low-level特征,也使不同尺度特征得到了融合,从而可以进行多尺度预测。4次上采样也使得分割图恢复边缘等信息更加精细。
(2).分类策略。
两层conv 3x3得到heatmap,再用conv 1x1分成两类,得到对应2个类得分(每个像素点针对两类都有一个得分)的最后两张heatmap, 然后作为softmax函数的输入,算出概率比较大的softmax类,输入给交叉熵进行BP。
(3).Overlap-tile策略。
为了预测框中图像,为了预测黄色区域的分割,需要蓝色区域作为输入,缺失区域通过镜像输入图像扩张。这对于应用网络到大图像很重要,避免gpu内存限制问题。
(4).数据增加。
少量样本情况下,让网络获得不变性和鲁棒性,数据增加必不可少。处理显微镜图片时,我们需要平移与旋转不变性,并且对形变和灰度变化鲁棒。将训练样本进行随机弹性形变是训练分割网络的关键。使用随机位移矢量(random displacement vectors)在粗糙的3*3网格上产生平滑形变(smooth deformations),位移是从10像素标准偏差的高斯分布中采样的,然后使用双三次插值计算每个像素的位移。在contracting path的末尾采用drop-out层更进一步增加数据。
(6).加权loss。
采用SGD训练,最后一层使用交叉熵函数与softmax。为了使某些像素点更加重要,引入了w(x)。对每一张标注图像预计算了一个权重图,来补偿训练集中每类像素的不同频率,使网络更注重学习相互接触的细胞之间小的分割边界。使用形态学操作计算分割边界。权重图计算公式如下:
wc是用于平衡类别频率的权重图,d1代表到最近细胞的边界的距离,d2代表到第二近的细胞的边界的距离。基于经验我们设定w0=10,σ≈5像素。网络的权重由高斯分布初始化,分布的标准差为(N/2)^0.5, N为每个神经元的输入节点数量。例如,对于一个上一层是64通道的3*3卷积核来说,N=9*64。
UNet系列,或基于UNet衍生出来的其他网络还包括:3D U-Net、UNet++、TernausNet、Res-UNet、Dense U-Net、MultiResUNet、R2U-Net、Attention UNet等。
2.【SegNet】
结构:
SegNet是Cambridge提出旨在解决自动驾驶或者智能机器人的图像语义分割深度网络,和FCN思路十分相似,只是Encoder,Decoder(upsampling)使用的技术不一致。
encoder的基本单元是:2-3个same卷积层(图像size不变,BN对训练图像的分布归一化,加速学习)接一个max pooling(2x2)下采样;
decoder的基本单元是:upsampling接2-3个same卷积层,卷积为上采样放大的图像丰富信息,使池化过程丢失的信息被重建。
关键策略:
(1).Pooling Indices。
SegNet在pooling上有个创新,引入了index功能。这里详细解释下。
如上图,每次pooling,都会保存通过max选出的权值在2x2 filter中的相对位置,6在粉色2x2 filter中的位置为(1,1)(index从0开始),黄色的3的index为(0,0)。同时,从网络结构图可以看到绿色的pooling与红色的upsampling通过pooling indices相连,表示pooling后的indices输出到对应的upsampling层。upsampling中先对输入的特征图放大两倍,然后把输入特征图的数据根据pooling indices放入,如下图所示。
2x2的输入变成4x4的图,除了被记住位置的pooling indices,其他位置的权值为0,因为数据已经被pooling走了。因此,SegNet使用卷积来填充缺失的内容。
(2).分类策略。
在网络框架中,SegNet最后一个卷积层会输出所有的类别(包括其他类),网络最后加上一个softmax层,由于是端到端,所以softmax需要求出每一个像素在所有类别最大的概率,作为该像素的label,最终完成图像像素级别的分类。
4.【Deeplabv3++】
结构:
主干网络(DCNN): 更深的Xception结构。
Xception: 带有残差连接的深度可分卷积层的线性堆叠,基于Inception。
encoder: 原DeepLabv3作为encoder,ASPP有四个不同的rate,额外一个全局平均池化;
decoder: 先把encoder的结果上采样4倍,然后与resnet中下采样前的特征(先1x1卷积降通道数)concat,再进行3x3的卷积,最后上采样4倍输出结果。
关键策略:
(1).深度可分离卷积(Depthwise separable convolution)。
encoder
的主干网络
Xception
中引入的深度可分离卷积:
depthwise_separable_convolution = depthwise_convolution(先每个通道上独自进行空间卷积)
+ pointwise_convolution(再用1x1卷积核组合前面dep_conv得到的特征),在保持网络性能的同时,大幅减少参数量。
(2).空洞卷积(dilated convolution)。
又叫膨胀卷积,是通过增加一个超参数dilation rate(kernel的间隔数量),在标准的卷积图里注入空洞来增加感受野,有效避免了upsampling和pooling设计的缺陷:参数不可学习、内部数据结构及空间层级化信息丢失、小物体信息无法重建。
但是,Gridding Effect(kernel不连续,不是所有的pixel都用来计算)会使膨胀卷积损失信息的连续性,另外,单凭大dilation rate获得的信息可能对小物体分割没效果。通向标准化设计,Hybrid Dilated Convolution(HDC)因此被引入。HDC有三个特征:叠加卷积的dilation rate不能有大于1的公约数;将dilation rate设计成锯齿状结构,如[1, 2, 5, 1, 2, 5]循环结构;第2层的最大dilation rate M2 <= kernel size(k),至少可以用dilation rate 1(标准卷积)来覆盖掉所有洞。
(3).ASPP(astrous spatial pyramid pooling)。
ASPP通过不同的rate构建不同感受野的卷积核,捕获多尺度信息,并联(串联)不同膨胀率的空洞卷积,来获取更多上下文信息。
(4).encoder-decoder结构。
把ASPP模块和encoder-decoder结合在一起,encoder-decoder结构可以更好的地恢复物体的边缘信息。
三. 实例分割
1.【Mask-RCNN】
结构:
Mask-RCNN是一个通用的实例分割架构,以Faster-RCNN为原型(速度5fps,更慢)的二阶段模型,增加了一个用于分割的Mask预测分支,可用于人的姿态估计等任务。
步骤:首先是找出RPN,然后对RPN找到的每个ROI进行分类、定位、并找到binary mask。与其他先找到mask再进行分类的网络不同。因为没有采用全连接层并且使用了RoIAlign,可以实现输出与输入的像素一一对应。
主干网络:标准的卷积神经网络(VGG/ResNet,可+FPN提升性能)作为特征提取器。底层检测的是低级特征(边缘和角等),较高层检测的是更高级的特征。
RPN网络:同Faster-RCNN,基于滑动窗口扫描图像,寻找目标区域,输出anchor box类别(FG/BG)并根据偏移量精调b-box拟合目标,过滤掉一部分候选的ROI。
ROIAlign:对这些剩下的ROI进行ROIAlign操作(先将原图和特征图的像素对应起来,然后将特征图和固定的feature对应起来)。
Final分类回归:对这些ROI进行分类(N类别分类)、b-box回归和mask生成。
损失函数:L = Lcls + Lbox + Lmask。Lcls和Lbox与Faster-RCNN的定义相同,表示b-box的分类和回归损失值,Lmask表示mask部分损失值。
关键策略:
(1).ROIAlign。
Faster-RCNN存在的问题是:特征图与原始图像是不对准的,所以会影响检测精度。而Mask-RCNN提出了RoIAlign的方法来取代ROI pooling,可以保留大致的空间位置。
为了得到为了得到固定大小(7X7)的feature map,ROIAlign技术没有使用量化操作,取而代之的是双线性插值。
黑色实线框表示ROI feature,最后输出是2x2,利用双线性插值来估计这些蓝点(虚拟坐标点,又称双线性插值的网格点)处所对应的像素值,最后得到相应的输出。双线性插值本质上就是在两个方向上做线性插值。
(2).FCN on ROI。
生成mask时,在每个ROI里面进行FCN操作。
(3).Sigmoid Loss。
对于预测的二值mask输出,我们对每个像素点应用sigmoid函数,整体Loss定义为平均二值交叉损失熵。引入预测K个输出的机制,允许每个类都生成独立的掩膜,避免类间竞争。这样做解耦了掩膜和种类预测。不像FCN的做法,在每个像素点上应用softmax函数,整体采用的多任务交叉熵,这样会导致类间竞争,最终导致分割效果差。
四. 代码实现
https://github.com/mrgloom/awesome-semantic-segmentation 这里面非常全,语义分割和实例分割典型网络的实现都有,包括Keras、Pytorch和Tensorflow等主流架构。
五. reference
https://blog.csdn.net/github_37973614/article/details/84559861
https://zhuanlan.zhihu.com/p/44958351
https://blog.csdn.net/zhuzemin45/article/details/79709874
https://www.jianshu.com/p/755b001bfe38
https://www.cnblogs.com/hellcat/p/9749538.html#_label0
https://www.jianshu.com/p/9176bb2a8b86
本文借鉴了上述优秀的文章,部分图片出自相应段落,感谢作者!
原文地址:https://www.cnblogs.com/lh2n18/p/12340120.html