【CV论文阅读】Network in Network

目的：

通过用Mlpconv层来替代传统的conv层，可以学习到更加抽象的特征。传统卷积层通过将前一层进行了线性组合，然后经过非线性激活得到(GLM)，作者认为传统卷积层的假设是基于特征的线性可分。而Mlpconv层使用多层感知机，是一个深层的网络结构，可以近似任何非线性的函数。在网络中高层的抽象特征代表它对于相同concept的不同表现具有不变性（By abstraction we mean that the feature is invariant to the variants of the same concept）。微小的神经网络在输入的map上滑动，它的权值是共享的，而且Mlpconv层同样可以使用BP算法学习到其中的参数。传统卷积层（左）与Mlpcon层（右）对比如下：

实现：

对于非线性激活函数，例如一个ReLU函数有，k代表通道下标，Xij表示以像素（i,j）为中心的输入区域。在Mlpconv层中，每一个神经元计算的规则为

n代表网络的层次。在上述b图可以看到，对于每一个神经元，生成的只有单个输出，而输入是多维（可以理解为多通道，在网络中的每一层是一个1*k的向量），可以把整个过程看作是一个1*1*k的卷积层作用在k通道上。在后续的一些论文中，常用到这样的方法来对输入进行降维（不是对图像的输入空间，而是通道降维），这样的非抽象的过程可以很好地把多维信息压缩。

使用全局平均池化层代替FC层：

使用这样的微网络的结构，可以抽象出更加好的局部特征，使得特征图与类别有一致性。在softmax的前一层去除FC层，则在这一层没有参数的优化，可以减少计算的消耗，降低这一层的过拟合。

过程是这样的：对于每一个特征图计算它的平均数，然后把这些平均数组成一个特征向量，输入到后续的softmax层中。

如下图：

总结NIN的优点：

（1）更好的局部抽象

（2）去除全连接层，更少的参数

（3）更小的过拟合

时间： 2024-11-09 06:35:45

【CV论文阅读】Network in Network的相关文章

论文阅读 | Probing Neural Network Understanding of Natural Language Arguments

[code&data] [pdf] 摘要我们惊讶地发现,伯特在论证推理理解任务中77%的峰值表现仅比未经训练的人类平均基线低3个点.然而,我们表明,这个结果完全是利用数据集中虚假的统计线索得出的.我们分析了这些线索的性质,并证明了一系列的模型都利用了它们.该分析提供了一个对抗数据集的构造,所有模型都在该数据集上实现随机精度.我们的对抗性数据集提供了一个更强的参数理解评估,应该作为未来工作的标准. 1 介绍论证挖掘是在自然语言文本中确定论证结构的任务.文本段代表主张,包括支持或攻击这些主张的原

【CV论文阅读】Deep Linear Discriminative Analysis, ICLR, 2016

DeepLDA 并不是把LDA模型整合到了Deep Network,而是利用LDA来指导模型的训练.从实验结果来看,使用DeepLDA模型最后投影的特征也是很discriminative 的,但是很遗憾没有看到论文是否验证了topmost 的hidden representation 是否也和softmax指导产生的representation一样的discriminative. DeepLDA和一般的deep network唯一不同是它的loss function.两者对比如下: 对于LDA,

【CV论文阅读】 Fast RCNN

Fast RCNN的结构: 先从这幅图解释FAST RCNN的结构.首先,FAST RCNN的输入是包含两部分,image以及region proposal(在论文中叫做region of interest,ROI).Image经过深度网络(deep network)之后得到feature map,然后可以从feature map中找到ROI在其中的投射projection得到每个patch,但论文没有提及怎么在map中寻找对应的patch,估计可以通过位置关系找到(猜想,因为deep Conv

【CV论文阅读】Dynamic image networks for action recognition

论文的重点在于后面approximation部分. 在<Rank Pooling>的论文中提到,可以通过训练RankSVM获得参数向量d,来作为视频帧序列的representation.而在dynamic论文中发现,这样的参数向量d,事实上与image是同等大小的,也就是说,它本身是一张图片(假如map与image同大小而不是提取的特征向量),那么就可以把图片输入到CNN中进行计算了.如下图可以看到一些参数向量d pooling的样例参数向量d的快速计算把计算d的过程定义一个函数.一个近似

【CV论文阅读】+【搬运工】LocNet: Improving Localization Accuracy for Object Detection + A Theoretical analysis of feature pooling in Visual Recognition

论文的关注点在于如何提高bounding box的定位,使用的是概率的预测形式,模型的基础是region proposal.论文提出一个locNet的深度网络,不在依赖于回归方程.论文中提到locnet可以很容易与现有的detection系统结合,但我困惑的是(1)它们的训练的方法,这点论文中没有明确的提到,而仅仅说用迭代的方法进行(2)到底两者的融合后两个网络的结构是怎样呢?可以看做一个多任务的系统,还是存在两个网络呢? 检测方法输入的候选bounding box(使用selective s

【CV论文阅读】Network in Network

【CV论文阅读】Network in Network的相关文章

论文阅读 | Probing Neural Network Understanding of Natural Language Arguments

【CV论文阅读】Deep Linear Discriminative Analysis, ICLR, 2016

【CV论文阅读】 Fast RCNN

【CV论文阅读】Dynamic image networks for action recognition

【CV论文阅读】+【搬运工】LocNet: Improving Localization Accuracy for Object Detection + A Theoretical analysis of feature pooling in Visual Recognition

【CV论文阅读】Image Captioning 总结

【CV论文阅读】Two stream convolutional Networks for action recognition in Vedios

【CV论文阅读】Going deeper with convolutions(GoogLeNet)

【CV论文阅读】Detecting events and key actors in multi-person videos