Some Improvements on Deep Convolutional Neural Network Based Image Classif ication

本文的大概思想就是:

(1)增加训练样本;(2)增加测试样本预测数量;(3)多个CNN模型的融合;

一、增加训练样本的数量

常用的增加样本的方法有:crop、flip及add randomly generated ligthing;

1、传统的crop方法是把图像resize到256*256,然后在进行crop,但是这样会损失掉一部分有用的信息例如下图:

因此本文采用的方法:先将图像的最小的一边放大到256,这样就形成了256*N或者N*256,然后在进行crop;

2、除了随机加入光照噪声以外,还可以加入额外的颜色处理,即随机改变图像的对比度、亮度和色度(0.5-1.5的比例);

二、增加额外的预测数据

除了采用五个crops和两个flips外:

1、采用三个尺度的图像,256、228和284;

2、采用三个视觉角度,同时倍增了全连的层数,但是并没有取得好的效果;

3、减少预测的数量

由于采用了 translations, 2 flips, 3 scales, and 3 views 这样就产生了90 预测,如果将这90个预测都使用的话,将极大影响测试速度,不使用。简单的方法是采用贪婪方法:即首先采用最可行的一个预测,逐渐加入其他预测,直到识别率不再增加。(不解之处:在测试的时候,根本就无法知道什么时候识别率不再增加,有可能还是要把所有的预测都用上)。效果图如下:

三、高分辨率的模型

采用更大的图像,训练一个高分辨率的模型,然后把基本模型和高分辨率模型进行结合。在训练高分辨率的模型的时候有一下几个点:

1、9 crops, 2 flips, 3 scales, 3 views,采用前面的贪婪预测方法。

2、由于训练样本非常丰富,因此drop out 就不再那么重要。本文采用分阶段drop out,取得了不使用和一直使用drop out更好的效果。模型融合的效果如下图:

四、在ILSVRC2013上的识别率

五、总结

个人认为,这篇论文也没有什么比较出色的创新点,只不过就是比别人增加样本的方法多一些,并且取得比较好的效果是因为有10个模型的融合的结果。

值得借鉴的点:

1、增加样本的方法;

2、阶段性使用drop out;阶段性使用drop out还属首次,取得了好的效果。

Some Improvements on Deep Convolutional Neural Network Based Image Classif ication

时间: 2024-11-05 14:46:27

Some Improvements on Deep Convolutional Neural Network Based Image Classif ication的相关文章

Heterogeneous Multi-task Learning for Human Pose Estimation with Deep Convolutional Neural Network

论文题目Heterogeneous Multi-task Learning for Human Pose Estimation with Deep Convolutional Neural Network, 链接 该篇论文是IJCV 2014的, 文章的核心multi-tasks的joint traning. 直接看图说话, 该论文的核心思想/步骤可以分为两个components: 1对图像里面的person进行detection, 以便裁剪出图像里面的人. 这个显然是必要的, 尤其是图像大而p

读paper:Deep Convolutional Neural Network using Triplets of Faces, Deep Ensemble, andScore-level Fusion for Face Recognition

今天给大家带来一篇来自CVPR 2017关于人脸识别的文章. 文章题目:Deep Convolutional Neural Network using Triplets of Faces, Deep Ensemble, and 摘要: 文章动机:人脸识别在一个没有约束的环境下,在计算机视觉中是一个非常有挑战性的问题.同一个身份的人脸当呈现不同的装饰,不同的姿势和不同的表情都可以使人脸看起来完全不同.这种相同身份的变化可以压倒不同身份的变化,这样给人脸识别带来更大的挑战,特别是在没有约束的环境下.

论文笔记《ImageNet Classification with Deep Convolutional Neural Network》

一.摘要 了解CNN必读的一篇论文,有些东西还是可以了解的. 二.结构 1. Relu的好处: 1.在训练时间上,比tanh和sigmod快,而且BP的时候求导也很容易 2.因为是非饱和函数,所以基本不会出现梯度消失的情况 Relu只要控制好learing rate,可以说是完胜之前的激活函数,也因此可以帮助我们训练更深层次的网络. 现在对Relu的进一步增强还有研究,有兴趣可以了解. 2.GPU并行计算在当时是个很好思路,不过作者的trick就有点...虽然说是通过cross-validati

人群计数:Single-Image Crowd Counting via Multi-Column Convolutional Neural Network(CVPR2016)

本博文主要是CVPR2016的<Single-Image Crowd Counting via Multi-Column Convolutional Neural Network>这篇文章的阅读笔记,以及对人群计数领域做一个简要介绍. Abstract 这篇论文开发了一种可以从一个单幅的图像中准确地估计任意人群密度和任意角度的人群数目.文章提出了一种简单有效的的多列卷积神经网络结构(MCNN)将图像映射到其人群密度图上.该方法允许输入任意尺寸或分辨率的图像,每列CNN学习得到的特征可以自适应由

Image Scaling using Deep Convolutional Neural Networks

Image Scaling using Deep Convolutional Neural Networks This past summer I interned at Flipboard in Palo Alto, California. I worked on machine learning based problems, one of which was Image Upscaling. This post will show some preliminary results, dis

ufldl学习笔记与编程作业:Convolutional Neural Network(卷积神经网络)

ufldl出了新教程,感觉比之前的好,从基础讲起,系统清晰,又有编程实践. 在deep learning高质量群里面听一些前辈说,不必深究其他机器学习的算法,可以直接来学dl. 于是最近就开始搞这个了,教程加上matlab编程,就是完美啊. 新教程的地址是:http://ufldl.stanford.edu/tutorial/ 本节学习地址:http://ufldl.stanford.edu/tutorial/supervised/ConvolutionalNeuralNetwork/ 一直没更

论文阅读(Weilin Huang——【TIP2016】Text-Attentional Convolutional Neural Network for Scene Text Detection)

Weilin Huang--[TIP2015]Text-Attentional Convolutional Neural Network for Scene Text Detection) 目录 作者和相关链接 方法概括 创新点和贡献 方法细节 实验结果 问题讨论 作者和相关链接 总结与收获点 作者补充信息 参考文献 作者和相关链接 论文下载 作者: tong he, 黄伟林,乔宇,姚剑 方法概括 使用改进版的MSER(CE-MSERs,contrast-enhancement)提取候选字符区域

ImageNet Classification with Deep Convolutional Neural Networks

ImageNet Classification with Deep Convolutional Neural Networks Alex Krizhevsky, Ilya Sutskever, Geoffrey E. Hinton 摘要 我们训练了一个大型的深度卷积神经网络,来将在ImageNet LSVRC-2010大赛中的120万张高清图像分为1000个不同的类别.对测试数据,我们得到了top-1误差率37.5%,以及top-5误差率17.0%,这个效果比之前最顶尖的都要好得多.该神经网络有

CNN(Convolutional Neural Network)

CNN(Convolutional Neural Network) 卷积神经网络(简称CNN)最早可以追溯到20世纪60年代,Hubel等人通过对猫视觉皮层细胞的研究表明,大脑对外界获取的信息由多层的感受野(Receptive Field)激发完成的.在感受野的基础上,1980年Fukushima提出了一个理论模型Neocognitron是感受野在人工神经网络领域的首次应用.1998年,Lecun等人提出的LeNet-5模型在手写字符识别上取得了成功,引起了学术界对卷积神经网络的关注.2012年