论文笔记《ImageNet Classification with Deep Convolutional Neural Network》

一、摘要

了解CNN必读的一篇论文，有些东西还是可以了解的。

二、结构

1、 Relu的好处： 1、在训练时间上，比tanh和sigmod快，而且BP的时候求导也很容易

2、因为是非饱和函数，所以基本不会出现梯度消失的情况

Relu只要控制好learing rate，可以说是完胜之前的激活函数，也因此可以帮助我们训练更深层次的网络。

现在对Relu的进一步增强还有研究，有兴趣可以了解。

2、GPU并行计算在当时是个很好思路，不过作者的trick就有点...虽然说是通过cross-validation得到的结论，但我觉得对以后的研究，意义不是很大

3、局部归一化应该也是一个trick，暂时没接触过..以后再看看

4、overlapping pooling也是在后来没怎么听说过的..

三、减少过拟合

1、数据增加

（1）图像变换

这是一个非常好，也非常常用且非常实用的方法...

原始图像为一个大图a，想把一短边缩小到256维得到b，然后在b的中心取256*256的正方形图片得到c，然后在c上随机提取224*224的小图片作为训练样本，然后在结合图像水平反转来增加样本达到数据增益。这种增益方法是样本增加了2048倍，允许我们运行更大的网络。

（2）调整RGB值

具体思路是：对三个channel分别做PCA分析，得到主成成分后，在相应的维度上做一些jittter，增加或减少一些服从高斯分布，标准差为0.1的随机变量，这样可以得到一些和原来相似且有意义的数据。

2、Dropout

这也是一个相当牛逼的技术，通过对神经元概率话的激活，既可以达到多个模型combine的效果（因为每次的结构都不同，但又共享参数），有不用花太多的时间去训练多个网络。

四、思考

有几个问题还是可以拎出来想想的。

1，两个GPU基本是一样的环境，但训练出来的卷积核却完全不同，why？

2.还是网络结构的问题，为什么这样就可以...

五、总结

说实话，看完这篇论文并没有学到太多，不是这篇文章不牛逼，而是太牛逼了，以至于后面大多数CNN方面的研究都用到了里面的理论，所以很多都有种似曾相识的感觉，但作为CNN的翻身之作，确实值得一读！

时间： 2025-01-01 19:33:15

论文笔记《ImageNet Classification with Deep Convolutional Neural Network》的相关文章

论文笔记《Maxout Networks》 && 《Network In Network》

论文笔记 <Maxout Networks> && <Network In Network> 发表于 2014-09-22 | 1条评论出处 maxout:http://arxiv.org/pdf/1302.4389v4.pdfNIN:http://arxiv.org/abs/1312.4400 参考 maxout和NIN具体内容不作解释下,可以参考:Deep learning:四十五(maxout简单理解)Network In Network 各用一句话

论文笔记-Squeeze-and-Excitation Networks

作者提出为了增强网络的表达能力,现有的工作显示了加强空间编码的作用.在这篇论文里面,作者重点关注channel上的信息,提出了"Squeeze-and-Excitation"(SE)block,实际上就是显式的让网络关注channel之间的信息 (adaptively recalibrates channel-wise feature responsesby explicitly modelling interdependencies between channels.).SEnets

深度学习方法（十）：卷积神经网络结构变化——Maxout Networks，Network In Network，Global Average Pooling

技术交流QQ群:433250724,欢迎对算法.技术感兴趣的同学加入. 最近接下来几篇博文会回到神经网络结构的讨论上来,前面我在"深度学习方法(五):卷积神经网络CNN经典模型整理Lenet,Alexnet,Googlenet,VGG,Deep Residual Learning"一文中介绍了经典的CNN网络结构模型,这些可以说已经是家喻户晓的网络结构,在那一文结尾,我提到"是时候动一动卷积计算的形式了",原因是很多工作证明了,在基本的CNN卷积计算模式之外,很多简

深度学习论文笔记--Recover Canonical-View Faces in the Wild with Deep Neural Network

文章来源:CVPR2014 作者:Zhenyao Zhu,Ping Luo,Xiaogang Wang,Xiaoou Tang (香港中文大学果然牛啊,CVPR一刷一大堆) 主要内容: 提出了利用深度学习(还是CNN)来进行人脸图像重构正面人脸,然后利用重构的正面人脸图像来进行人脸的verification,当然能够取得更高的准确率(比没有用正脸去verification),文章提出利用DL来学习从任意脸到canonical 脸的转换,可以认为是一个回归问题(也不一定非得用DL方法来做). 现有

Network in Network 笔记

传统CNN里的卷积核是一个generalized linear model(GLM)之后经过一个sigmoid(现在通常是ReLu)的非线性激励函数,假设卷积有K个filter,那么这K个filter代表的特征应该是可分的,或者说对属于同一个类别的不同变形具有不变性. 但是通过GLM来建模,也就是假设这些latent的filter是线性可分的,显然这样的假设并不总是成立,甚至通常都不成立. 传统的CNN为了解决这种不可分的问题,往往会选择比较多的filter个数,也就是比较大的K值,来保证所有的

【转】Deep Learning论文笔记之（四）CNN卷积神经网络推导和实现

原作者:zouxy09 原文链接:http://blog.csdn.net/zouxy09/article/details/9993371 Deep Learning论文笔记之(四)CNN卷积神经网络推导和实现 [email protected] http://blog.csdn.net/zouxy09 自己平时看了一些论文,但老感觉看完过后就会慢慢的淡忘,某一天重新拾起来的时候又好像没有看过一样.所以想习惯地把一些感觉有用的论文中的知识点总结整理一下,一方面在整理过程中,自己

Deep Learning论文笔记之（四）CNN卷积神经网络推导和实现（转）

Deep Learning论文笔记之(四)CNN卷积神经网络推导和实现 [email protected] http://blog.csdn.net/zouxy09 自己平时看了一些论文,但老感觉看完过后就会慢慢的淡忘,某一天重新拾起来的时候又好像没有看过一样.所以想习惯地把一些感觉有用的论文中的知识点总结整理一下,一方面在整理过程中,自己的理解也会更深,另一方面也方便未来自己的勘察.更好的还可以放到博客上面与大家交流.因为基础有限,所以对论文的一些理解可能不太正确,还望大家不

【论文笔记】Recursive Recurrent Nets with Attention Modeling for OCR in the Wild

写在前面: 我看的paper大多为Computer Vision.Deep Learning相关的paper,现在基本也处于入门阶段,一些理解可能不太正确.说到底,小女子才疏学浅,如果有错误及理解不透彻的地方,欢迎各位大神批评指正! E-mail:[email protected]. <Recursive Recurrent Nets with Attention Modeling for OCR in the Wild>已经被CVPR 2016(CV领域三大顶会之一)正式接收了,主要是介绍了

Deep Reinforcement Learning for Visual Object Tracking in Videos 论文笔记

Deep Reinforcement Learning for Visual Object Tracking in Videos 论文笔记 arXiv 摘要:本文提出了一种 DRL 算法进行单目标跟踪,算是单目标跟踪中比较早的应用强化学习算法的一个工作. 在基于深度学习的方法中,想学习一个较好的 robust spatial and temporal representation for continuous video data 是非常困难的. 尽管最近的 CNN based tracke

Maxout Networks

Maxout Networks Researching for my master thesis I tried to understand the paper by Goodfellow et al. on the Maxout Units. I found it very hard understanding the details and thought a clear explanation in combination with a nice figure would be reall