MobileNet论文学习

Abstract

MobileNet 用于 移动或嵌入式应用,其主要方法是通过引入2个超参以在延迟和准确率上做trade off,是一个轻量级结构。可用于object detection, fine-grain classification,face attributes and large scale geo-localization.

Introduction

自AlexNet开始的neural network致力于加大网络深度和复杂度,但在诸如robotics等实际应用中无法承受其时间复杂度,因此,作者提出MobileNet这一轻量级网络。

Prior Work

之前的解决训练效率的方法主要分为两种①压缩预训练网络②直接训练小规模网络?

MobileNet的一个特点是根据resorce restrictions调整网络,以兼顾网络规模和训练速度。

MobileNet Architecture

1. Depthwise Separable Convolution

这里的想法是将传统的卷积分解成一个深度卷积和一个1*1的点卷积。深度卷积中对每一个channel使用一个filter,而点卷积则用于合并深度卷积后的输出。深度卷积又分为2层,一层用于filter,一层用于combine。这一系列分解可以大大减少计算量和模型尺寸。

标准卷积的复杂度为\(D_K\times D_K\times M \times N \times D_F \times D_F\)

而Depthwise Convolution 复杂度为$ D_K \times D_K \times M \times D_F \times D_F \(,Pointwise Convolution 复杂度为\)M \times n \times D_F \times D_F$ , 故总复杂度仅为原来的 $ \frac {1}{N} + \frac{1}{D_K^2} $

2. Network Structure and Training

MobileNet 的主要计算部分是1*1 convolution,而这可以使用高度优化的GEMM 函数解决。

训练过程中,使用了RMSprop优化,但没有使用regularization和data augmentation(由于小型网络不容易出现overfitting)

3. Width Multiplier: Thinner Models

引入参数width multiplier \(\alpha\) 来调整输入输出通道数,对于每一层网络,对于给定的\(\alpha\), 输入channel数变为\(\alpha M\), 输出channel数变为 $\alpha N \(, 参数个数和计算复杂度变为原来的约\)\alpha^2$

4. Resolution Multiplier: Reduced Representation

引入参数resolution multiplier \(\rho\)用来调整image size,计算复杂度变为原来的约\(\rho^2\)

补充知识

1.衡量软件性能的几个指标

吞吐量(throughout):相当一段时间内测量出来的系统单位时间处理的任务数或事务数(TPS)

延迟(latency):延迟一般包括单向延迟(One-way Latency)和往返延迟(Round Trip Latency),指执行一次操作所需时间,实际测量时一般取往返延迟。

并发度(Concurrency),公式如下:并发度 = 吞吐量 * 延迟

2.细粒度图像识别 (fine-grained image recognition),即 精细化分类 。

精细化分类的2种常用方法:

基于图像重要区域定位的方法:该方法集中探讨如何利用弱监督的信息自动找到图像中有判别力的区域,从而达到精细化分类的目的。

基于图像精细化特征表达的方法:该方法提出使用高维度的图像特征(如:bilinear vector)对图像信息进行高阶编码,以达到准确分类的目的。

  1. label-smoothing

在多分类问题中,由于标签是类别的one-hot vector, 因此表征我们已知该样本属于某一类别是概率为1的确定事件,而其他类别概率都为0。要用predicted label 去拟合这样的函数具有两个问题:首先,无法保证模型的泛化能力(generalizing),容易导致过拟合; 其次,全概率和零概率将鼓励所属类别和非所属类别之间的差距尽可能拉大,而由于以上可知梯度有界,因此很难adapt。这种情况源于模型过于相信预测的类别。( Intuitively, this happens because the model becomes too confident about its predictions.)

原文地址:https://www.cnblogs.com/cititude/p/11520136.html

时间: 2024-10-25 17:43:20

MobileNet论文学习的相关文章

手势跟踪论文学习:Realtime and Robust Hand Tracking from Depth

本文介绍的方法主要是用到了深度信息.提出了一种新的手指检测以及手型初始化的方法.具有很好的鲁棒性.在不使用GPU的情况下,速度就可以达到25FPS.准确率还相当的高.可以说是现在手势识别中最好的方法了. 当前的很多方法要不就是很慢,要不就是使用了GPU,再或者就是需要非常复杂的初始化.而本文提出的方法重新定义了手势的模型,结合了现在通用的两种方法的优势,并且加上一个约束方程,得到了很好的效果. 1.模型的重新定义 每一只手,定义了一个自由度(DOF)为26 的手的模型,其中的6个自由度代表全局的

【 论文学习记录】A flexible and scalable slam system with full 3d motion estimation 一种灵活可扩展带有3D运动估计的slam系统

A flexible and scalable slam system with full 3d motion estimation   论文学习记录 这篇论文系统框架,栅格多阈值,更新同步与伪数据,扫描匹配起始点,协方差交叉融合的思想还是值得借鉴的. 摘要 关注于搜救机器人建图定位与导航的框架性文章. 低计算资源的在线快速获取栅格地图: 结合鲁棒的激光扫描匹配方法和惯性传感器姿态估计系统. 快速地图梯度近似与多分辨率(类似图像金字塔)栅格地图,精确而不需要闭环检测. 介绍 2D slam 子系

Word2vec Parameter Learning Explained 论文学习笔记

原始论文:http://www-personal.umich.edu/~ronxin/pdf/w2vexp.pdf 之前学习Word2vec时,脱离了神经网络,这周补充了下相关知识,打算之后再 看下源码,加深自己的理解.

GoogleNet:inceptionV3论文学习

Rethinking the Inception Architecture for Computer Vision 论文地址:https://arxiv.org/abs/1512.00567 Abstract 介绍了卷积网络在计算机视觉任务中state-of-the-art.分析现在现状,本文通过适当增加计算条件下,通过suitably factorized convolutions 和 aggressive regularization来扩大网络.并说明了取得的成果. 1. Introduct

2015.03.10,学习,论文学习笔记-“水轮机压力脉动的混频幅值置信度分析方法研究”

文献:胡江艺.水轮机压力脉动的混频幅值置信度分析方法研究.水利机械技术,2014(3).17-22 摘要:文章根据IEC试验规程要求,对常见的用于计算压力脉动混频幅值置信度方法进行了分析.结合模型试验结果对压力脉动随机变量的分布进行了讨论.分析了计算方法的实用性,提出了符合要求的计算方法. 关键词:压力脉动 混频幅值 置信度 正态分布 笔记: 国内压力脉动测量采用混频压力脉动相对幅值,即时域内压力脉动的峰峰值与净水头H的幅值,其中峰峰值采用了置信度方法计算.IEC规程定义的混频压力脉动幅值称为宽

Raft论文学习笔记

先附上论文链接  https://pdos.csail.mit.edu/6.824/papers/raft-extended.pdf 最近在自学MIT的6.824分布式课程,找到两个比较好的github:MIT课程<Distributed Systems >学习和翻译 和 https://github.com/chaozh/MIT-6.824-2017 6.824的Lab 2 就是实现Raft算法.Raft是一种分布式一致性算法,提供了和paxos相同的功能和性能,但比paxos要容易理解很多

论文学习:Deep residual learning for image recognition

目录 I. Overview II. Degradation III. Solution & Deep residual learning IV. Implementation & Shortcut connections Home page https://github.com/KaimingHe/deep-residual-networks TensorFlow实现: https://github.com/tensorpack/tensorpack/tree/master/exampl

论文学习-系统评估卷积神经网络各项超参数设计的影响-Systematic evaluation of CNN advances on the ImageNet

写在前面 论文状态:Published in CVIU Volume 161 Issue C, August 2017 论文地址:https://arxiv.org/abs/1606.02228 github地址:https://github.com/ducha-aiki/caffenet-benchmark 在这篇文章中,作者在ImageNet上做了大量实验,对比卷积神经网络架构中各项超参数选择的影响,对如何优化网络性能很有启发意义,对比实验包括激活函数(sigmoid.ReLU.ELU.ma

mtcnn论文学习

Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Networks 使用多任务级联卷积网络连接人脸检测和对齐 摘要-因为可能有着多种姿势.照明和遮挡(various poses, illuminations and occlusions),在非限制环境下的人脸检测和对齐是很有挑战性的.目前的研究显示了深度学习方法能够在这两个任务上获得优异的性能.在该论文中,我们提出了一个深度级联多任务框架,用来探