Learning bothWeights and Connections for Efficient Neural Networks 论文阅读

  • 摘要

  神经网络既是计算密集型又是内存密集型,使得它们难以在嵌入式系统上部署。此外,传统网络在训练开始之前固定架构;因此,训练无法改善架构。为了解决这些限制,我们描述了一种方法,通过仅学习重要连接,将神经网络所需的存储和计算减少一个数量级而不影响其准确性。我们的方法使用三步法修剪冗余连接。首先,我们训练网络以了解哪些连接很重要。接下来,我们修剪不重要的连接。最后,我们重新训练网络以微调剩余连接的权重。在ImageNet数据集上,我们的方法将AlexNet的参数数量从6100万减少到670万,而不会导致精度损失。与VGG-16类似的实验发现,参数总数可以减少13,从1.38亿减少到1030万,同样不会损失准确性。

  • 简介

  为了实现这一目标,我们提出了一种以保持原始准确度的方式修剪网络连接的方法。 在初始训练阶段之后,我们删除所有权重低于阈值的连接。 这种修剪将密集的,完全连接的层转换为稀疏层。 第一阶段学习网络的拓扑 - 学习哪些连接很重要并删除不重要的连接。 然后我们重新训练稀疏网络,以便剩余的连接可以补偿已被删除的连接。 可以迭代地重复修剪和再训练的阶段以进一步降低网络复杂性。 实际上,这个训练过程除了权重之外还学习网络连接 - 就像在哺乳动物大脑中[8] [9]一样,在孩子发育的最初几个月中创建突触,然后逐渐修剪小孩 - 使用过的连接,降到典型的成人价值观。

  •  在权重上学习连接

  我们的修剪方法采用三步流程,如图2所示,首先通过正常的网络训练学习连接。 然而,与传统训练不同,我们没有学习权重的最终值,而是我们正在学习哪些联系很重要。

  第二步是修剪低重量连接。 权重低于阈值的所有连接都将从网络中删除 - 将密集网络转换为稀疏网络,如图3所示。最后一步重新训练网络以了解剩余稀疏连接的最终权重。 这一步至关重要。 如果在没有重新训练的情况下使用修剪过的网络,则精度会受到很大影响。

  • 正则化

  选择正确的正规化会影响修剪和再训练的效果。 L1正则化惩罚非零参数,导致更多参数接近零。 这在修剪后但在重新训练之前提供了更好的准确性。 但是,其余的连接不如L2正则化,导致重新训练后的精度较低。 总的来说,L2正则化提供了最好的修剪结果。 这在实验部分中进一步讨论。

  • Dropout 比率调整

  Dropout [23]被广泛用于防止过度拟合,这也适用于再训练。 但是,在再学习期间,必须调整dropout率以考虑模型容量的变化。 在dropout时,每个参数在训练期间都会被概率性地丢弃,但会在推理期间返回。 在修剪中,修剪后参数会永久丢失,并且在训练和推理期间都无法返回。 随着参数变得稀疏,分类器将选择信息量最大的预测器,因此具有更少的预测方差,这减少了过度拟合。 由于修剪已经减少了模型容量,因此再训练的dropout率应该更小。

  • 局部修剪和参数共适应

  在重新训练期间,最好保留初始训练阶段的权重,以便在修剪过程中保持连接,而不是重新初始化修剪过的层。 CNN包含脆弱的共同适应特征[24]:当网络初始训练时,梯度下降能够找到一个好的解决方案,但是在重新初始化一些层并重新训练后不能。 因此,当我们重新训练修剪过的图层时,我们应该保留幸存的参数,而不是重新初始化它们。

  从保留的权重开始重新训练修剪的层需要较少的计算,因为我们不必反向传播通过整个网络。 此外,随着网络越来越深入,神经网络容易遭受消失的梯度问题[25],这使得深度网络的修剪错误更难恢复。 为了防止这种情况,我们修复了CONV层的参数,并且仅在修剪FC层后重新训练FC层,反之亦然。

  • 迭代剪枝

  学习正确的连接是一个反复的过程。 修剪后再进行再训练是一次迭代,经过许多这样的迭代后,可以找到最小数量的连接。 在不损失准确性的情况下,与单步修剪相比,此方法可以将AlexNet上的修剪率从5提高到9。 每次迭代都是一次贪婪的搜索,因为我们找到了最好的连接。 我们还根据其绝对值对概率修剪参数进行了实验,但这会产生更糟糕的结果。

  • 剪枝神经元

  修剪连接后,可以安全地修剪零输入连接或零输出连接的神经元。 通过去除与修剪过的神经元之间的所有连接来进一步修剪这种修剪。再训练阶段自动到达结果,其中死神经元将具有零输入连接和零输出连接。 这是由于梯度下降和正则化而发生的。 具有零输入连接(或零输出连接)的神经元将对最终损失没有贡献,导致其输出连接(或输入连接)的梯度分别为零。 只有正则化项才会将权重推到零。 因此,在重新训练期间将自动移除死神经元。

原文地址:https://www.cnblogs.com/dushuxiang/p/10548136.html

时间: 2024-10-13 12:02:41

Learning bothWeights and Connections for Efficient Neural Networks 论文阅读的相关文章

Learning both weights and connections for efficient neural networks

Introduction and related work

LQ-Nets: Learned Quantization for Highly Accurate and Compact Deep Neural Networks 论文阅读

摘要 虽然权重和激活量化是深度神经网络(DNN)压缩的有效方法,并且具有很多利用bit操作来提高推理速度的潜力,但在量化模型和完整模型之间的预测精度方面仍存在明显差距.为了解决这个差距,我们建议联合训练量化的,位操作兼容的DNN及其相关的量化器,而不是使用固定的手工量化方案,例如均匀或对数量化.我们学习量化器的方法适用于任意位精度的网络权重和激活,我们的量化器很容易训练.对CIFAR-10和ImageNet数据集的全面实验表明,我们的方法可以很好地适用于各种网络结构,如AlexNet,VGG-N

【Papers】《ImageNet Classification with Deep Convolutional Neural Networks》阅读笔记

参考资料: ImageNet Classification with Deep Convolutional Neural Networks,Alex Krizhevsky,Ilya Sutskever,Geoffrey E. Hinton http://www.cnblogs.com/tornadomeet/p/3258122.html http://blog.sina.com.cn/s/blog_890c6aa30100z7su.html

[CVPR2015] Is object localization for free? – Weakly-supervised learning with convolutional neural networks论文笔记

p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 15.0px "Helvetica Neue"; color: #323333 } p.p2 { margin: 0.0px 0.0px 0.0px 0.0px; font: 13.0px "Helvetica Neue"; color: #323333 } li.li2 { margin: 0.0px 0.0px 0.0px 0.0px; font: 13.0px &quo

Neural Networks and Deep Learning

Neural Networks and Deep Learning This is the first course of the deep learning specialization at Coursera which is moderated by moderated by DeepLearning.ai. The course is taught by Andrew Ng. Introduction to deep learning Be able to explain the maj

Machine Learning - VIII. Neural Networks Representation (Week 4)

http://blog.csdn.net/pipisorry/article/details/4397356 机器学习Machine Learning - Andrew NG courses学习笔记 Neural Networks Representation神经网络表示 Non-linear Hypotheses非线性假设 Neurons and the Brain神经元和大脑 Model Representation模型表示 Examples and Intuitions示例和直觉知识 Mu

Machine Learning - IX. Neural Networks Learning (Week 5)

http://blog.csdn.net/pipisorry/article/details/44119187 机器学习Machine Learning - Andrew NG courses学习笔记 Neural Networks Learning 神经网络学习 Neural Networks are one of the most powerful learning algorithms that we have today. Cost Function代价函数 Note: 对于multi-

[C3] Andrew Ng - Neural Networks and Deep Learning

About this Course If you want to break into cutting-edge AI, this course will help you do so. Deep learning engineers are highly sought after, and mastering deep learning will give you numerous new career opportunities. Deep learning is also a new "s

ON THE EVOLUTION OF MACHINE LEARNING: FROM LINEAR MODELS TO NEURAL NETWORKS

ON THE EVOLUTION OF MACHINE LEARNING: FROM LINEAR MODELS TO NEURAL NETWORKS We recently interviewed Reza Zadeh (@Reza_Zadeh). Reza is a Consulting Professor in the Institute for Computational and Mathematical Engineering at Stanford University and a