AI佳作解读系列(五) －目标检测二十年技术综述

计算机视觉中的目标检测，因其在真实世界的大量应用需求，比如自动驾驶、视频监控、机器人视觉等，而被研究学者广泛关注。

上周四，arXiv新出一篇目标检测文献《Object Detection in 20 Years: A Survey》，其对该领域20年来出现的技术进行了综述，这是一篇投向PAMI的论文，作者们review了400+篇论文，总结了目标检测发展的里程碑算法和state-of-the-art，并且难能可贵的对算法流程各个技术模块的演进也进行了说明，还深入到目标检测的特定领域，如人脸检测、行人检测等进行了总结，最后列举了未来可能的发展方向。温故而知新，该论文极具参考价值！

作者来自美国密歇根大学、北京航空航天大学、滴滴出行。下图是作者在谷歌学术检索目标检测相关关键字返回的历年文献数量，可见该领域20年来越来越受到学术界的关注。2018年有将近1200篇相关文献发表。

目标检测路线图

作者将目标检测近20年来的里程碑算法画在时间轴上，如下：

可见作者将算法大致分为2012年之前的传统检测方法与2012年之后出现的基于深度学习的检测方法。传统方法比如我们所熟知的V-J检测、HOG检测、DPM算法。深度学习方法截然不同的分为两条技术路径：单阶段检测算法与两阶段检测算法。同时作者把目标检测的一些精度提高的方法的出现也列在了时间轴上，比如bounding box regression、multi-resolution detection等。

在目前最知名的评估数据集VOC 2007 、VOC 2012、 COCO上不同年份出现的算法精度提高，如下图：

可见，深度学习在检测领域的开山之作，RCNN取得了大幅度精度提高，开辟了检测的新时代。而今年新出的TridentNet是目前在COCO数据集上取得较高精度的算法。

目标检测数据集

作者总结了通用目标检测及几个特定目标检测的数据集。通用目标检测领域常用数据集：

几个常用数据集的示例图片：

行人检测常用数据集：

人脸检测常用数据集：

文本检测常用数据集：

交通灯检测与交通标志检测常用数据集：

遥感目标检测常用数据集：

目标检测技术演进

作者将目标检测中涉及的各种技术的演进铺展开来，让我们能就单一技术看到发展路径。早期目标检测算法代表：

多尺度检测技术演进路线：

包围框回归技术演进路线：

目标上下文建模技术演进路线图：

包围框非极大抑制（NMS）技术演进路线图：

难检测负样本挖掘技术演进路线图：

目标检测计算加速

目标检测天生是计算密集型任务，所以从其在其发展的各个阶段，目标检测算法的加速就是一个重要议题。作者总结的目标检测计算加速方法：

可见主要是在三个层次加速：

数值计算层次（如积分图、矢量量化等）
检测引擎层次（网络剪枝与量化、轻量级网络设计等）
检测流程层次（特征图共享、分类器加速、级连检测等）

因为目前CNN检测方法是主流，作者列出的近年出现的卷积计算的一些加速方法及其时间复杂度：

目标检测进展

作者在这部分描述了近三年来state-of-the-art目标检测技术的研究进展：

更好地引擎（engine）：作者将深度学习目标检测网络的骨干网称为其引擎。改进目标检测的一个直接思路就是使用更加先进的骨干网。如下图（相同算法用相同颜色的圆点表示，使用相同引擎的算法结果用一个大括号连接，我们可以轻易看出，使用不同的引擎对最终精度的影响更大）：
使用更好的特征：1）特征融合；2）学习大感受野的高分辨率特征
超越滑动窗口：不再是局限于候选区域再分类的模式。作者提到两种新模式：1）子区域搜索 sub-region search。将目标检测看为从初始网格到最终ground truth box的路径规划过程。2）关键点定位。将目标检测看为特定语义点定位的过程。比如：ECCV18 Oral | CornerNet目标检测开启预测“边界框”到预测“点对”的新思路Grid R-CNN解读：商汤目标检测算法
目标定位改进：1）包围框提精。2）改进loss函数用于较精确定位。比如：CVPR 2019 | 旷视提出新型目标检测损失函数：定位更精准
检测与分割一起进行：分割可以帮助目标检测提高类别识别的精度、获得更好地目标定位、潜入更加丰富的上下文。分割的网络可以作为目标检测的提取网络，也可以作为多任务学习的损失函数，用以改进目标检测。52CV曾经报道过一篇文章甚至分割完全可以用来替换检测：目标检测：Segmentation is All You Need ？
旋转和尺度变化鲁棒的目标检测：针对旋转变化鲁棒改进方向：1）旋转不变损失函数；2）旋转校正；3）Rotation RoI Pooling。针对尺度变化鲁棒的改进：1）尺度自适应训练；2）尺度自适应检测。
Training from Scratch：不使用预训练模型，从头开始训练目标检测网络。比如：CVPR 2019 | 京东AI研究院提出ScratchDet，加强对小目标的检测，代码将开源。
对抗训练：比如有研究表明，GAN可以用来改进小目标的检测。
弱监督的目标检测：不使用包围框标注，而仅使用图像级的目标标注的算法。减少标注成本。扩大训练集。