【论文笔记】Spatial Transformer Networks

参考文献**Jaderberg M, Simonyan K, Zisserman A. Spatial transformer networks[C]//Advances in Neural Information Processing Systems. 2015: 2017-2025.

摘要

卷积神经网络(CNN)已经被证明能够训练一个能力强大的分类模型,但与传统的模式识别方法类似,它也会受到数据在空间上多样性的影响。这篇Paper提出了一种叫做空间变换网络(Spatial Transform Networks, STN),该网络不需要关键点的标定,能够根据分类或者其它任务自适应地将数据进行空间变换和对齐(包括平移、缩放、旋转以及其它几何变换等)。在输入数据在空间差异较大的情况下,这个网络可以加在现有的卷积网络中,提高分类的准确性。

——————

由于我之前的工作部分涉及到人脸对齐,所以看到这篇Paper异常激动。总觉得能用它做点什么。

算法介绍

1. 算法总流程

STN 主要可以分为三个部分:1)localisation network. 2) grid generator. 3) sampler. (中文我翻译不准确,大家意会下)。localisation network用来计算空间变换的参数 θ,grid generator则是得到input map U∈RHxWxC到 output map 各位置的V∈RH′xW′xC对应关系 Tθ, sampler根据input map 和 对应关系,生成最终的output map. 流程图如图所示:

1.1 Localisation Network

它的作用就是通过一个子网络(全连接或者卷积网,再加一个回归层),生成空间变换的参数θ。θ 的形式可以多样,如需实现2D仿射变换,θ 就是一个6维(2x3)向量的输出。

1.2 Parameterised Sampling Grid

假设U (可以是输入图片,也可以是一般的feature map)每个像素的坐标为(xsi,ysi), V 的每个像素坐标为(xti,yti), 空间变换函数 Tθ 为仿射变换函数,那么 (xsi,ysi) 和 (xti,yti) 的对应关系可以写为:

(xsiysi)=Tθ(Gi)=Aθ(xtiyti)

当然,Aθ也可以有其它形式,如3D仿射变换,透射变换等。

1.3 Differentiable Image Sampling

在计算得到 Tθ 后,就可以由以下公式 U 得到 V 了(省略推导公式若干,只放上最终形式):

Vci=∑nH∑mWUcnmmax(0,1?|xsi?m)|max(0,1?|ysi?n|)

在求得 V 后,当然少不了上述公式对 U, xs , ys的求导,以便根据loss进行网络的后向反馈:

?Vci?Ucnm=∑nH∑mWmax(0,1?|xsi?m)|max(0,1?|ysi?n|)

?Vci?xsi=∑nH∑mWUcnmmax(0,1?|xsi?m)|max(0,1?|ysi?n|)?????0,1,?1if |m?xsi|≥1if m≥xsiif m<xsi

?Vci?ysi 与 ?Vci?xsi 类似。对 θ 的求导为:

?Vci?θ=???????Vci?xsi?xsi?θ?Vci?ysi?ysi?θ??????

而 ?xsi?θ, ?ysi?θ 根据具体的变换函数便可得到。

通过以上3个部分的结合,便形成了完整的 STN

2. 算法分析

STN 计算较快,几乎没有增加原有网络模型的训练时间。由于它能够在训练过程中,学习到与任务相关的空间变换参数,因此能够进一步最小化网络的损失函数。STN 不只可以用在输入的图像层,也可以加入卷积层或者其它层之后。

3. 实验结果

这篇文章分别在手写文字识别、街景数字识别、鸟类分类以及共定位等方面做了实验,我只列出比较有代表性的手写文字实验部分。

实验数据为MNIST,分别在经过不同处理(包括 旋转(R)、旋转、缩放、平移(RTS),透射变换(P)),弹性变形(E))的数据上,进行实验分别。Baseline分别使用了两种网络结构FCN , CNN, 加入了 STN 的网络为 ST-FCN, ST-CNN。其中,STN 采用了以下几种变换方法:仿射变换(Aff )、透射变换(Proj )、以及薄板样条变换(TPS )。下表列出了 STNbaseline 在MNIST上的比较结果,表中数据为识别错误率:

可以看出,对不同的形式的数据,加入了STN 的网络均优于 baseline 的结果。以下为 STN 对数字图像进行变换后的结果,其中a列为原始数据,b列为变换参数的示意图,c为最终变换后的结果:

总结

STN能够在没有标注关键点的情况下,根据任务自己学习图片或特征的空间变换参数,将输入图片或者学习的特征在空间上进行对齐,从而减少物体由于空间中的旋转、平移、尺度、扭曲等几何变换对分类、定位等任务的影响。加入到已有的CNN或者FCN网络,能够提升网络的学习能力。

时间: 2024-11-16 07:03:09

【论文笔记】Spatial Transformer Networks的相关文章

spatial transformer networks 这篇论文

大致看了看这个paper, 很novel. 我的观点: 在traditional convolutional neural netwoks 中,我们通常会depend 于 extracting features.       而本paper把 hand-crafted 和 feature extraction 结合在了一起,用于处理 invariance of various inputs. spatial transformer 可以包括:平移.旋转.放缩等操作.      在数学上的名称有:

Spatial Transformer Networks(空间变换神经网络)

Reference:Spatial Transformer Networks [Google.DeepMind]Reference:[Theano源码,基于Lasagne] 闲扯:大数据不如小数据 这是一份很新的Paper(2015.6),来自于Google旗下的新锐AI公司DeepMind的三位剑桥Phd研究员. 他们针对CNN的特点,构建了一个新的局部网络层,称为空间变换层,如其名,它能将输入图像做任意空间变换. 在我的论文[深度神经网络在面部情感分析系统中的应用与改良]中,提出了一个有趣观

论文笔记 《Maxout Networks》 &amp;&amp; 《Network In Network》

论文笔记 <Maxout Networks> && <Network In Network> 发表于 2014-09-22   |   1条评论 出处 maxout:http://arxiv.org/pdf/1302.4389v4.pdfNIN:http://arxiv.org/abs/1312.4400 参考 maxout和NIN具体内容不作解释下,可以参考:Deep learning:四十五(maxout简单理解)Network In Network 各用一句话

论文笔记 Spatial contrasting for deep unsupervised learning

在我们设计无监督学习模型时,应尽量做到 网络结构与有监督模型兼容 有效利用有监督模型的基本模块,如dropout.relu等 无监督学习的目标是为有监督模型提供初始化的参数,理想情况是"这些初始化的参数能够极大提高后续有监督模型准确率,即使有监督任务的训练样本数很少".类别理解就是,我们在Imagenet上通过有监督的方式训练得到了表达能力很强的网络,在我们迁移至新的任务时(该任务带有训练标签的样本有限),我们一般固定在Imagenet上训练好模型的前N层(N可以根据实际需要调整),然

Spatial Transformer Networks

参考:http://blog.csdn.net/xbinworld/article/details/69049680 论文的关键在理解这句话: 先通过V中坐标(xtarget,ytarget)以此找到它在U中的坐标,然后再通过双线性插值采样出真实的像素值,放到(xtarget,ytarget).

论文笔记-Deep Neural Networks for YouTube Recommendations

从各方资料总结了一下大体思路,论文中很多细节还有待细读. 1.引言 youtube视频推荐的三大挑战: (1)规模大:数以亿计 (2)新鲜度:每秒就有很多新视频上传,要考虑用户的实时行为和新视频的推荐,平衡好新视频和好视频.(exploration and exploitation) (3)噪音:用户历史行为很稀疏并且有各种难以观测的隐性因子.而视频本身数据也是非结构化的.推荐算法需要有很好的鲁棒性. 2.系统概览 和我们熟知的召回.排序流程是一样的.这里候选集的生成除了使用dnn生成的之外,还

论文笔记-Squeeze-and-Excitation Networks

作者提出为了增强网络的表达能力,现有的工作显示了加强空间编码的作用.在这篇论文里面,作者重点关注channel上的信息,提出了"Squeeze-and-Excitation"(SE)block,实际上就是显式的让网络关注channel之间的信息 (adaptively recalibrates channel-wise feature responsesby explicitly modelling interdependencies between channels.).SEnets

【论文笔记】Recursive Recurrent Nets with Attention Modeling for OCR in the Wild

写在前面: 我看的paper大多为Computer Vision.Deep Learning相关的paper,现在基本也处于入门阶段,一些理解可能不太正确.说到底,小女子才疏学浅,如果有错误及理解不透彻的地方,欢迎各位大神批评指正! E-mail:[email protected]. <Recursive Recurrent Nets with Attention Modeling for OCR in the Wild>已经被CVPR 2016(CV领域三大顶会之一)正式接收了,主要是介绍了

论文笔记 Deep Patch Learning for Weakly Supervised Object Classi cation and Discovery

Background 1) "Patch-level image representation"的优势 "Patch-level image representation is very important for object classification and detection, since it is robust to spatial transformation, scale variation, and cluttered background" &