VGGnet论文总结(VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION)

VGGNet的主要贡献:

  1、增加了网络结构的深度

  2、使用了更小的filter(3*3)

1 introduction

这部分主要说明了,由于在所有的卷积网络上使用了3*3的filter,所以使整体网络的深度加深。最后在ILSVRC取得的成绩也是十分明显的。

2 Convent Configuration

2.1 ARCHITECTURE

  在前边的卷积层上,使用3*3的filter,有时也使用1*1的filter(相当于在输入channels上进行线性变换)。卷积操作的步长是1。总共有5个max-pooling层,大小是2*2,步长设定为2,跟在一些卷积层之后。在所有卷积层之后,跟着3个全连接层,前两个全连接层有4096个channels,最后一个全连接层有1000个channels对应1000种分类。最后一层是soft-max层。

所有的隐藏层都有整流函数(ReLU)。

2.2 CONFIGURATIONS

  配置了A-E五种结构的网络,深度分别对应11,11,13,16,19。卷积层的宽度从64开始,每经过一个max-pooling层,大小乘2,直到512。

2.3 DISCUSSION

  1、VGGnet使用了3个非线性整流层,相比于只使用单个,决策函数更具有判别力。

  2、使用3层叠加的3*3的filter的卷积层,要比使用一个7*7的filter的卷积层的参数要减少81%。

  另外,使用1*1的filter的卷积层可以增加决策函数的非线性特征。

3 CLASSIFICATION FRAMEWORK

3.1 TRAINING

用momentum方法的mini-batch方法,batch的大小为256,momentum设为0.9。weight decay采用L2正则化方法,惩罚因子为0.0005。对于全连接层的前两层采用dropout的正则化方法,dropout的大小设为0.5。学习率设为0.01。

对A这样深度不算深的网络来说,使用随机初始化去训练参数,然后用A训练得到的参数去初始化其他更深的网络。

用来训练的图片的规格大小:第一步设定要训练的图片的规格S = 256,当训练规格S=384的网路时,先用S=256的结果初始化,然后使用0.001的训练速率。第二步,在一定的范围内随机截取要训练的图片,然后用S=384训练得到的结果去初始化这个网络。

3.2 TESTING

在测试过程中,使用了两种方法,第一种是dense evaluation,使用FCN。第二种是multi-cripevaluation,通过截取获得一个大的数据集,能是提高结果的精确度。

3.3 IMPLEMENTATION DETAILS

实现基于caffe,做了一定的修改,允许在单操作系统的多核GPU上进行训练。用多GPU进行并行计算每个batch的梯度,当所有的GPU都计算完成之后,求所有batch得到梯度的平均值。

4 CLASSIFICATION EXPERIMENTS

4.1 SINGLE SCALE EVALUATION

1.LRN不能降低错误率,后续网络中不再使用

2.随着网络层数的加深,分类错误率逐渐降低

3.scale jittering可以使表现结果更好

4.2 MULTI-SCALE EVALUATION

在训练时用scale jittering可以使结果表现的更好,比使用单一规模

4.3 MULTI-CROP EVALUATION

单一使用multi-crop evaluation 要比单一使用dense evaluation效果好,两个方法同时使用时,要比单一使用任意都好。

4.4 CONVNET FUSION

将几个模型的soft-max分类策略的输出求平均后再用于识别,这样可以提高最后的表现。

5 CONCLUSION

通过在大规模的图片分类上评估深度卷积神经网络,表明深度有益于分类的精确度,并且通过使用加深了的传统卷积神经网络,能达到在ImageNet数据集上的最好表现。

附录A   LOCALISATION

A.1 LOCALISATION CONVNET

与分类的区别是,在最后一个全连接层,使用bounding box代替 class scores。 如果bounding box的在所有类交叉共享的,那么最后一层就是4-D,如果是特定类,那最后一层就是4000-D。

Training. 和分类主要的不同是,用Euclidean loss替换logistic regression objective,在惩罚bounding box预测偏差的时候。训练模型时,不使用scale jittering

Testing. 测试使用两种不同的测试方法,

1、bounding box只在图像裁剪中心得到,用于比较在验证集下不同的网络限制,bounding box的预测效果。

2、在整个图像上,密集的应用定位网络。与分类任务不同的是,用一组bounding box的预测代替class score map。为了提出最后的结果,使用贪婪融合过程,先融合相近的预测,然后用class scores进行估计。

A.2 LOCALISATION EXPERIMENTS

Settings comparison. 1、使用PCR的效果要比使用SCR的效果好。2、微调所有层比仅微调全连接层的效果好

Fully-fledged evaluation     使用最优的设置(PCR, fine-tuning of all ayers),图像的scale对结果有影响。

Comparison with the state of the art.

附录B   GENERALISATION OF VERY DEEP FEATURES

时间: 2024-07-28 19:09:23

VGGnet论文总结(VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION)的相关文章

SPPNet论文翻译-空间金字塔池化Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

http://www.dengfanxin.cn/?p=403 原文地址 我对物体检测的一篇重要著作SPPNet的论文的主要部分进行了翻译工作.SPPNet的初衷非常明晰,就是希望网络对输入的尺寸更加灵活,分析到卷积网络对尺寸并没有要求,固定尺寸的要求完全来源于全连接层部分,因而借助空间金字塔池化的方法来衔接两者,SPPNet在检测领域的重要贡献是避免了R-CNN的变形.重复计算等问题,在效果不衰减的情况下,大幅提高了识别速度. 用于视觉识别的深度卷积网络空间金字塔池化方法 Spatial Py

Very Deep Convolutional Networks for Large-Scale Image Recognition—VGG论文翻译

Very Deep Convolutional Networks for Large-Scale Image Recognition Karen Simonyan∗ & Andrew Zisserman+ Visual Geometry Group, Department of Engineering Science, University of Oxford {karen,az}@robots.ox.ac.uk 摘要 在这项工作中,我们研究了在大规模的图像识别环境下卷积网络的深度对识别的准确率

[论文理解] Why do deep convolutional networks generalize so poorly to small image transformations?

Why do deep convolutional networks generalize so poorly to small image transformations? Intro CNN的设计初衷是为了使得模型具有微小平移.旋转不变性,而实际上本文通过实验验证了现在比较流行的神经网络都已经丧失了这样的能力,甚至图像只水平移动一个像素,预测的结果都将会发生很大的变化.之所以如此,作者认为CNN的下采样背离了隆奎斯特采样定理,就连augmentation也并不能缓解微小变化不变性的丧失. I

Very Deep Convolutional Networks for Large-Scale Image Recognition

Very Deep Convolutional Networks for Large-Scale Image Recognition 转载请注明:http://blog.csdn.net/stdcoutzyx/article/details/39736509 这篇论文是今年9月份的论文[1],比較新,当中的观点感觉对卷积神经网络的參数调整大有指导作用,特总结之. 关于卷积神经网络(Convolutional Neural Network, CNN),笔者后会作文阐述之,读者若心急则或可用谷歌百度

Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

一.本文的主要思想 考虑到传统的CNN构架的输入图像的尺寸都是固定的(例如:256*256),这种人工改变输入图像的尺寸破坏了输入图像的尺度和长宽比例.作者认为卷积层的输入的尺寸可以是任意,全连接层的输入是固定不变.针对这个问题,作者提出了spatial pyramid pooling(SPP-net)结构,在目标检测方面,比R-CNN快30-170倍. 二.spatial pyramid pooling(SPP-net)的优势 1.针对不同尺寸的输入可以得到相同维度的输出,而siding wi

深度学习笔记(二)Very Deep Convolutional Networks for Large-Scale Image Recognition

Very Deep Convolutional Networks for Large-Scale Image Recognition 1. 主要贡献 本文探究了参数总数基本不变的情况下,CNN随着层数的增加,其效果的变化.(thorough evaluation of networks of increasing depth using an architecture with very small (3×3) convolution filters, which shows that a si

VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION 这篇论文

由Andrew Zisserman 教授主导的 VGG 的 ILSVRC 的大赛中的卷积神经网络取得了很好的成绩,这篇文章详细说明了网络相关事宜. 文章主要干了点什么事呢?它就是在在用卷积神经网络下,在采用小的卷积核与小的移动步长的情况下,探索一下网络的深度对目标识别率的影响. 网络的大体结构 网络的输入为224*224的RGB图片,后面跟卷积层,卷积核的大小基本都为3*3有最小的可以保留图片空间分瓣率的卷积核,步长为1个像素,偶尔会有1*1的卷积核,这就相当于加入了一个非线性变换而已.再往后接

论文笔记《Fully Convolutional Networks for Semantic Segmentation》

<Fully Convolutional Networks for Semantic Segmentation>,CVPR 2015 best paper,pixel level, fully supervised. 主要思路是把CNN改为FCN,输入一幅图像后直接在输出端得到dense prediction,也就是每个像素所属的class,从而得到一个end-to-end的方法来实现image  semantic segmentation. 我们已经有一个CNN模型,首先要把CNN的全连接层

目标检测论文阅读:Deformable Convolutional Networks

https://blog.csdn.net/qq_21949357/article/details/80538255 这篇论文其实读起来还是比较难懂的,主要是细节部分很需要推敲,尤其是deformable的卷积如何实现的一步上,在写这篇博客之前,我也查阅了很多其他人的分享或者去github找代码,当然也不敢说完全了解了这种特殊的卷积--仅仅做一点自己的阅读心得与体会吧.这是一篇很有意义的工作,但是和深度学习很多论文一样,在读完之后内心也不免有着种种疑云. Deformable Convoluti

[论文理解] Learning Efficient Convolutional Networks through Network Slimming

Learning Efficient Convolutional Networks through Network Slimming 简介 这是我看的第一篇模型压缩方面的论文,应该也算比较出名的一篇吧,因为很早就对模型压缩比较感兴趣,所以抽了个时间看了一篇,代码也自己实现了一下,觉得还是挺容易的.这篇文章就模型压缩问题提出了一种剪枝针对BN层的剪枝方法,作者通过利用BN层的权重来评估输入channel的score,通过对score进行threshold过滤到score低的channel,在连接的