Residual Networks

本文介绍一下2015 ImageNet中分类任务的冠军——MSRA何凯明团队的Residual Networks。实际上,MSRA是今年Imagenet的大赢家,不单在分类任务,MSRA还用residual networks赢了 ImageNet的detection, localization, 以及COCO数据集上的detection和segmentation, 那本文就简单分析下Residual Networks。

目录 
———————————— 
1. Motivation 
2. 网络结构 
3. 实验结果 
4. 重要reference


1. Motivation

作者首先抛出了这个问题, 深度神经网络是不是越深越好。 
照我们一般的经验,只要网络不训飞(也就是最早在LSTM中提出的vanishing/exploding problem),而且不过拟合, 那应该是越深越好。

但是有这么个情况,网络加深了, accuracy却下降了,称这种情况为degradation。如下图所示(详见[1]):

Cifar-10 上的training/testing error. 网络从20层加到56层,error却上升了。

按理说我们有一个shallow net,在不过拟合的情况下再往深加几层怎么说也不会比shallow的结果差,所以degradation说明不是所有网络都那么容易优化,这篇文章的motivation就是通过“deep residual network“解决degradation问题。

2. 网络结构

Shortcut Connections

其实本文想法和Highway networks(Jurgen Schmidhuber的文章)非常相似, 就连要解决的问题(degradation)都一样。Highway networks一文借用LSTM中gate的概念,除了正常的非线性映射H(x, Wh)外,还设置了一条从x直接到y的通路,以T(x, Wt)作为gate来把握两者之间的权重,如下公式所示:

y=H(x,WH)?T(x,WT)+x?(1?T(x,WT))

shortcut原意指捷径,在这里就表示越层连接,就比如上面Highway networks里从x直接到y的连接。其实早在googleNet的inception层中就有这种表示:

Residual Networks一文中,作者将Highway network中的含参加权连接变为固定加权连接,即

y=H(x,WH)?WT+x

Residual Learning

至此,我们一直没有提及residual networks中residual的含义。那这个“残差“指什么呢?我们想: 
如果能用几层网络去逼近一个复杂的非线性映射H(x),那么同样可以用这几层网络去逼近它的residual function:F(x)=H(x)?x,但我们“猜想“优化residual mapping要比直接优化H(x)简单。

推荐读者们还是看一下本文最后列出的这篇reference paper,本文中作者说与Highway network相比的优势在于:

x Highway Network Residual Network 评论
gate参数 有参数变量WT 没参数,定死的, 方便和没有residual的网络比较 算不上优势,参数少又data-independent,结果肯定不会是最优的,文章实验部分也对比了效果,确实是带参数的error更小,但是WT这个变量与解决degradation问题无关
关门? 有可能关门(T(x,WT)=0) 不会关门 T(x,WT)∈[0,1], 但一般不会为0

所以说这个比较还是比较牵强。。anyway,人家讲个故事也是不容易了。

34层 residual network

网络构建思路:基本保持各层complexity不变,也就是哪层down-sampling了,就把filter数*2, 网络太大,此处不贴了,大家看paper去吧, paper中画了一个34层全卷积网络, 没有了后面的几层fc,难怪说152层的网络比16-19层VGG的计算量还低。

这里再讲下文章中讲实现部分的 tricks:

  1. 图片resize:短边长random.randint(256,480)
  2. 裁剪:224*224随机采样,含水平翻转
  3. 减均值
  4. 标准颜色扩充[2]
  5. conv和activation间加batch normalization[3] 
    帮助解决vanishing/exploding问题
  6. minibatch-size:256
  7. learning-rate: 初始0.1, error平了lr就除以10
  8. weight decay:0.0001
  9. momentum:0.9
  10. 没用dropout[3]

其实看下来都是挺常规的方法。

3. 实验结果

  1. 34层与18层网络比较:训练过程中, 
    34层plain net(不带residual function)比18层plain net的error大 
    34层residual net(不带residual function)比18层residual net的error小,更比34层plain net小了3.5%(top1) 
    18层residual net比18层plain net收敛快
  2. Residual function的设置: 
    A)在H(x)与x维度不同时, 用0充填补足 
    B) 在H(x)与x维度不同时, 带WT 
    C)任何shortcut都带WT 
    loss效果: A>B>C

4. 重要reference

[1]. Highway Networks 
[2]. ImageNet Classification with Deep Convolutional Neural Networks 
[3]. Batch Normalization 
[4]. VGG

时间: 2024-10-09 02:34:42

Residual Networks的相关文章

深度残差网(deep residual networks)的训练过程

这里介绍一种深度残差网(deep residual networks)的训练过程: 1.通过下面的地址下载基于python的训练代码: https://github.com/dnlcrl/deep-residual-networks-pyfunt 2.这些训练代码需要和pydataset包.下面介绍这两个包的安装方法. (1)pyfunt需要安装. 用命令:pip install git+git://github.com/dnlcrl/PyFunt.git  进行下载安计.        安装时

Residual Networks <2015 ICCV, ImageNet 图像分类Top1>

本文介绍一下2015 ImageNet中分类任务的冠军--MSRA何凯明团队的Residual Networks.实际上,MSRA是今年Imagenet的大赢家,不单在分类任务,MSRA还用residual networks赢了 ImageNet的detection, localization, 以及COCO数据集上的detection和segmentation, 那本文就简单分析下Residual Networks. 目录 ------------ 1. Motivation 2. 网络结构

论文笔记之: Wide Residual Networks

Wide Residual Networks

课程四(Convolutional Neural Networks),第二 周(Deep convolutional models: case studies) ——3.Programming assignments : Residual Networks

Residual Networks Welcome to the second assignment of this week! You will learn how to build very deep convolutional networks, using Residual Networks (ResNets). In theory, very deep networks can represent very complex functions; but in practice, the

残差网络(Residual Networks, ResNets)

1. 什么是残差(residual)? "残差在数理统计中是指实际观察值与估计值(拟合值)之间的差.""如果回归模型正确的话, 我们可以将残差看作误差的观测值." 更准确地,假设我们想要找一个 $x$,使得 $f(x) = b$,给定一个 $x$ 的估计值 $x_0$,残差(residual)就是 $b-f(x_0)$,同时,误差就是 $x-x_0$. 即使 $x$ 不知道,我们仍然可以计算残差,只是不能计算误差罢了. 2. 什么是残差网络(Residual Net

Paper | Spatially Adaptive Computation Time for Residual Networks

目录 摘要 故事 SACT机制 ACT机制 SACT机制 实验 发表在2017年CVPR. 摘要 在图像检测任务中,对于图像不同的区域,我们可以分配不同层数的网络予以处理. 本文就提出了一个基于ResNet的层数可调网络,可以端到端训练.确定的(deterministic)并且是问题不可知的(problem-agnostic),即可用于其他计算机视觉任务. 作者发现,该网络不仅能提高ResNet计算效率,而且其表现也与人类的注意力机制相符,如图1. 故事 DCNN被广泛应用于各种计算机视觉问题,

Deep Residual Learning for Image Recognition(MSRA-深度残差学习)

ABSTRACT: 1.Deeper neural networks are more difficult to train. 2.We present a residual learning framework to ease the training of networks that are substantially deeper than those used previously. 3.We explicitly reformulate the layers as learning r

Deep Residual Learning for Image Recognition

Kaiming HeXiangyu ZhangShaoqing RenMicrosoft Research {kahe, v-xiangz, v-shren, jiansun}@microsoft.com Abstract Deeper neural networks are more difficult to train. Wepresent a residual learning framework to ease the trainingof networks that are subst

[C3] Andrew Ng - Neural Networks and Deep Learning

About this Course If you want to break into cutting-edge AI, this course will help you do so. Deep learning engineers are highly sought after, and mastering deep learning will give you numerous new career opportunities. Deep learning is also a new "s