选自 Computer Vision Blog
机器之心编译
参与:吴攀、微胖、李亚洲
本文经机器之心(微信公众号:almosthuman2014)授权转载,禁止二次转载
2012年,我开始列举计算机视觉领域引用率最高的文章清单。不过,2012年以来,这个领域变了很多,当时深度学习技术开始成为潮流,而且在许多计算机视觉基准方面其表现超过了传统方法。无论这一趋势是否能够持久,我认为,应该将这些技术放入名单。正如我提到的那样,被引越频繁未必意味着文章贡献越大。不过,高引证率经常暗示着人们已经发现了某些有趣的东西。据我所知,以下就是计算机视觉和深度学习领域被引最多的论文。
1.使用深度卷积神经网络的 ImageNet 分类(Imagenet classification with deep convolutional neural networks)
作者:A Krizhevsky, I Sutskever, GE Hinton, 2012。
引用次数:5518
摘要:为了将 ImageNet LSVRC-2010 大赛的120万张高清图像分为1000个不同的类别,我们训练了一个大型的深度卷积神经网络。对测试数据,我们得到了 top-1 误差率 37.5%,以及 top-5 误差率 17.0%,这个效果比之前最顶尖的都要好得多。该神经网络有 6000 万个参数和 650,000 个神经元,由五个卷积层,以及某些卷积层后跟着的最大池化(max-pooling)层,以及三个全连接层,还有排在最后的1000-way 的 softmax 层组成。为了使训练速度更快,我们使用了非饱和的神经元和一个非常高效的 GPU 关于卷积运算的工具。为了减少全连接层的过拟合,我们采用了最新开发的正则化方法,称为 dropout ,它已被证明是非常有效的。在 ILSVRC-2012 大赛中,我们又输入了该模型的一个变体,并依靠 top-5 测试误差率 15.3% 取得了胜利,相比较下,第二名的错误率为 26.2%。
2.Caffe:用于快速特征嵌入的卷积架构(Caffe: Convolutional architecture for fast feature embedding)
作者:Y Jia, E Shelhamer, J Donahue, S Karayev,2014。
引用次数:1868
3.反向传播算法应用于手写邮政编码识别(Backpropagation applied to handwritten zip code recognition)
作者:Y LeCun, B Boser, JS Denker, D Henderson,1989。
引用次数:1681
4.准确的物体检测和语义分割中的丰富的特征层级(Rich feature hierarchies for accurate object detection and semantic segmentation)
作者:R Girshick, J Donahue, T Darrell,2014。
引用次数:1516
摘要:据在权威的 PASCAL VOC 数据集上测定,过去几年,物体检测的性能已经趋于稳定。性能最好的方法都是复杂的集合系统,最典型的就是结合了多种低层图像特征和高层文本。在此论文中,我们提出了一种简单的、可延展的检测算法,相比于之前在 VOC 2012 上最好的结果(mAP 为 53.3%),我们的方法将平均正确率均值(mAP)提升了 30% 左右。我们的方法结合了两大主要观点:(1)为了局部化以及分割物体,能够应用高能力的卷积神经网络进行自下而上的区域(region)提议。(2)当标记的训练数据缺乏时,监督的预训练作为一种辅助任务,接而对特定区域进行微调,从而产生新能上的大步提升。因为我们结合了卷积神经网络的区域提议(Region proposal),我们称之为 R-CNN 方法:带有 CNN 特征的区域。我们也提供了该网络学习效果的实验,展现了图片特征的一个丰富的层级。整个系统的源代码网址是: http://www.cs.berkeley.edu/~rbg/rcnn。
5.大规模图像识别中非常深的卷积网络(Very deep convolutional networks for large-scale image recognition)
作者:K Simonyan, A Zisserman, 2014。
引用次数:1405
摘要:在此论文中,我们调查了在卷积网络深度对大规模图像识别准确率的影响。我们主要的贡献是一个周密的网络评估:使用一个带有非常小的(3×3)卷积过滤层增加网络的深度,结果显示,这对先前顶尖的构型有重大改进意义,将深度增加到了 16-19 个权重层。这些发现是我们在 ImageNet 2014 挑战赛中提交方法的基础,而在此比赛中,我们的团队在局部化和分类任务中获得了第一和第二的成绩。结果也显示,我们的方法在其他数据集中也有很好的泛化性能,在这些数据集上也取得了顶尖结果。我们已经将两个性能最佳的 ConvNet 模型公开了,可应用于计算机视觉任务中使用深度视觉表征的深入研究。
6.通过阻止特征检测器的互相适应提升神经网络(Improving neural networks by preventing co-adaptation of feature detectors)
作者:GE Hinton, N Srivastava, A Krizhevsky, 2012。
引用次数:1169
7.使用卷积做到更深度(Going deeper with convolutions)
作者:C Szegedy, W Liu, Y Jia, P Sermanet, 2015。
引用次数:1160
摘要:我们提出了一种代号为 Inception 的深度卷积神经网络架构,该架构在 2014 年 ImageNet 大规模视觉识别挑战赛(ILSVRC 2014)上实现了当时最佳的分类和检测结果。这种架构的主要特点是提高了对网络内部计算资源的利用。我们通过一个精心的设计使其在保持计算预算恒定的同时。实现了网络的深度和宽度的增长。为了质量的优化,该架构的决策基于赫布原理(Hebbian principle)和多尺度处理的直觉知识。该架构的一个特定的典型体现 GoogLeNet 是一个 22 层的深度网络,该网络在物体检测和分类的语境中被用来评估质量。
8.利用一个BP网络进行手写数字的识别(Handwritten digit recognition with a back-propagation network)
作者:BB Le Cun, JS Denker, D Henderson, 1990。
引用次数:977
摘要:我们介绍了BP网络的一种应用方式:手写数字识别。需要对数据进行最小程度预处理,但是,网络结构高度受限并针对任务进行了特别设计。输入的是独立数字的标准化图像。这一方法的误差率为1%,在美国邮政服务提供的邮政编码数字上,拒绝率为 9%。
9.视觉化并理解卷积网络(Visualizing and understanding convolutional networks)
作者:MD Zeiler, R Fergus, 2014。
引用次数:907
10.Dropout:一个防止神经网络过度拟合的简单办法(Dropout: a simple way to prevent neural networks from overfitting)
作者:N Srivastava, GE Hinton, A Krizhevsky…, 2014。
引用次数:839
摘要:带有大量参数的深度神经网络是非常有力的机器学习系统。但是,这类网络中存在一个严重的问题,过度拟合。大型网络采用缓慢,因此,很难通过测试时集合许多不同大型神经网络的预测来解决过度拟合问题。Dropout是一个解决办法。其中关键思想是,在训练过程中,从神经网络中随机放弃单元(以及它们的连接)。这能防止单元过于适应。在训练过程中,放弃来自指数数量的不同“变薄的”神经网络的样本。测试时,简单使用一个单独的带有较小权重的变薄网络,就很容易近似平均所有这些变瘦网络预测的效果。这显著减轻了过度拟合,也改进了其他正则化方法。我们也表明,这一方法改善了神经网络在监督学习任务(视觉、语音识别、文档分类以及计算生物学)方面的表现,在许多基准数据组上的成绩目前达到最先进水平。
11. Overfeat:使用卷积网络融合识别、局部化和检测(Overfeat: Integrated recognition, localization and detection using convolutional networks)
作者:P Sermanet, D Eigen, X Zhang, M Mathieu, 2013。
引用次数:839
12.从微小图片中学习多层特征(Learning multiple layers of features from tiny images)
作者:A Krizhevsky, G Hinton, 2009。
引用次数:818
13.DeCAF:一个应用于常规视觉识别任务中的深度卷积激活特征(DeCAF: A Deep Convolutional Activation Feature for Generic Visual Recognition)
作者:J Donahue, Y Jia, O Vinyals, J Hoffman, N Zhang…, 2014。
引用次数:718
14.深度面部:在面部验证方面,弥补与人类表现水平的差距(Deepface: Closing the gap to human-level performance in face verification)
作者:Y Taigman, M Yang, MA Ranzato, 2014。
引用次数:691
15.深度玻尔兹曼机(Deep Boltzmann Machines)
作者:R Salakhutdinov, GE Hinton, 2009。
引用次数:679
16.用于图像、语音以及时序的卷积网络(Convolutional networks for images, speech, and time series)
作者:Y LeCun, Y Bengio, 1995。
引用次数:670
17.现成的CNN特征 :一个令人吃惊的识别基线( CNN features off-the-shelf: an astounding baseline for recognition)
作者:A Sharif Razavian, H Azizpour, J Sullivan, 2014。
引用次数:570
18.针对情景标签的学习分层特征(Learning hierarchical features for scene labeling)
作者:C Farabet, C Couprie, L Najman, 2013。
引用次数:549
19.语义切分的全卷积网络(Fully convolutional networks for semantic segmentation)
作者:J Long, E Shelhamer, T Darrell, 2015。
引用次数:510
20.Maxout 网络(Maxout networks)
作者:IJ Goodfellow, D Warde-Farley, M Mirza, AC Courville, 2013。
引用次数:469
21.细节魔鬼的回归:深挖卷积网络(Return of the devil in the details: Delving deep into convolutional nets)
作者:K Chatfield, K Simonyan, A Vedaldi, 2014。
引用次数:453
22.使用卷积神经网络进行大规模视频分类(Large-scale video classification with convolutional neural networks)
作者:A Karpathy, G Toderici, S Shetty, T Leung, 2014。
引用次数:445
23.针对生成图像描述的深度视觉-语义对齐(Deep visual-semantic alignments for generating image descriptions)
作者:A Karpathy, L Fei-Fei, 2015。
引用次数:347
24.深度探入纠正器:在 Imagenet 分类中超过人类表现(Delving deep into rectifiers: Surpassing human-level performance on imagenet classification)
作者:K He, X Zhang, S Ren, J Sun, 2015。
引用次数:342
25.使用卷积神经网络学习和传递中层图像表征(Learning and transferring mid-level image representations using convolutional neural networks)
作者:M Oquab, L Bottou, I Laptev, J Sivic, 2014。
引用次数:334
26.卷积网络及其视觉应用(Convolutional networks and applications in vision)
作者:Y LeCun, K Kavukcuoglu, C Farabet, 2010。
引用次数:333
27.使用位置数据库学习用于场景识别的深度特征(Learning deep features for scene recognition using places database)
作者:B Zhou, A Lapedriza, J Xiao, A Torralba,2014。
引用次数:332
28.用于视觉识别的深度卷积网络中的空间金字塔池化(Spatial pyramid pooling in deep convolutional networks for visual recognition)
作者:K He, X Zhang, S Ren, J Sun, 2014。
引用次数:299
29.用于视觉识别和描述的长期循环卷积网络(Long-term recurrent convolutional networks for visual recognition and description)
作者:J Donahue, L Anne Hendricks, 2015。
引用次数:268
30. 用于视频中动作识别双流式(Two-stream)卷积网络(Two-stream convolutional networks for action recognition in videos)
作者:K Simonyan, A Zisserman, 2014。
引用次数:261