【模型压缩】蒸馏算法小结

模型压缩之蒸馏算法小结

原始文档：https://www.yuque.com/lart/gw5mta/scisva

Google Slide: https://docs.google.com/presentation/d/e/2PACX-1vSsa5X_zfuJUPgxUL7vu8MHbkj3JnUzIlKbf-eXkYivhwiFZRVx_NqhSxBbYDu-1c2D7ucBX_Rlf9kD/pub?start=false&loop=false&delayms=3000

2019年09月07日制作

脑图的原始文档：http://naotu.baidu.com/file/f60fea22a9ed0ea7236ca9a70ff1b667?token=dab31b70fffa034a(kdxj)

输出配准

Distilling the Knowledge in a Neural Network（NIPS 2014）

使用教师模型的soft-target

Deep Mutual Learning（CVPR 2018）

交替式训练多个学生网络互相促进

Born Again Neural Networks（ICML 2018）

从教师训练学生1，以此由学生i训练学生i+1，最后集成所有的学生模型

直接配准

拟合注意力图

Paying More Attention to Attention: Improving the Performance of Convolutional Neural Networks via Attention Transfer（ICLR 2017）

配准各阶段特征通经过道融合后得到的单通道注意力图

Learning Lightweight Lane Detection CNNs by Self Attention Distillation（ICCV 2019）

使网络各阶段的特征通过通道融合计算注意力图，配准早期的输出注意力图

拟合特征

FitNets : Hints for Thin Deep Nets（ICLR2015）

第一阶段使用一个回归模块来配准部分学生网络和部分教师网络的输出特征，第二阶段使用soft targets

关系配准

拟合特征两两之间的关系

A Gift from Knowledge Distillation: Fast Optimization, Network Minimization and Transfer Learning（CVPR 2017）

计算相邻阶段特征个通道之间的关系进行配准

Graph-based Knowledge Distillation by Multi-head Attention Network（BMVC 2019）

使用non-local挖掘相邻阶段特征奇异值分解处理后的特征之间的关系

拟合输出中蕴含的关系

Similarity-Preserving Knowledge Distillation（ICCV 2019）

整个batch内部样本对应输出特征之间的关系

Relational Knowledge Distillation（CVPR 2019）

batch中任意二元数据对应输出的距离关系和三元组输出对应角度关系

Data Distillation: Towards Omni-Supervised Learning（CVPR2018）

教师模型与学生模型结构可同可不同，会集成不同变换后的样本对应的教师网络的输出

Mean teachers are better role models: Weight-averaged consistency targets improve semi-supervised deep learning results（NIPS 2017）

半监督方法，教师模型使用当前学生模型的权重参数和上一周期的权重参数计算指数移动平均，一致性约束

拟合特征自身内部的关系

Knowledge Adaptation for Efficient Semantic Segmentation（CVPR 2019）

对教师模型使用自编码器转换特征，对学生模型使用适配单元来适配教师模型的特征

Structured Knowledge Distillation for Semantic Segmentation（CVPR 2019）

同时结合了soft targets，以及使用gan做的更高级的信息的拟合

原文地址：https://www.cnblogs.com/lart/p/11505544.html

时间： 2024-10-21 04:19:02

【模型压缩】蒸馏算法小结的相关文章

深度学习之模型压缩

一.背景深度学习让计算机视觉任务的性能到达了一个前所未有的高度.但,复杂模型的同时,带来了高额的存储空间.计算资源消耗,使其很难落实到各个硬件平台. 为了解决这些问题,压缩模型以最大限度地减小模型对于计算空间和时间的消耗. 二.理论基础必要性:目前主流的网络,如VGG16,参数量1亿3千多万,占用500多MB空间,需要进行300多亿次浮点运算才能完成一次图像识别任务. 可行性:在深度卷积网络中,存在着大量冗余地节点,仅仅只有少部分(5-10%)权值参与着主要的计算,也就是说,仅仅训练小部分的

数据挖掘中分类算法小结

数据挖掘中分类算法小结数据仓库,数据库或者其它信息库中隐藏着许多可以为商业.科研等活动的决策提供所需要的知识.分类与预测是两种数据分析形式,它们可以用来抽取能够描述重要数据集合或预测未来数据趋势的模型.分类方法(Classification)用于预测数据对象的离散类别(Categorical Label);预测方法(Prediction )用于预测数据对象的连续取值. 分类技术在很多领域都有应用,例如可以通过客户分类构造一个分类模型来对银行贷款进行风险评估;当前的市场营销中很重要的一个特点是强

稀疏矩阵的三元组顺序表存储及矩阵相乘算法小结

稀疏矩阵的三元组顺序表存储及矩阵相乘算法小结巧若拙(欢迎转载,但请注明出处:http://blog.csdn.net/qiaoruozhuo) 一:稀疏矩阵的三元组顺序表数据结构 typedef int ElemType; typedef struct { intx, y; //该非零元素的行下标和列下标 ElemTypee; //该非零元素的值 } Triple; typedef struct { Tripledata[MAXSIZE]; //非零元素三元组顺序表 intmu, nu, t

聚类算法小结

看了些论文,小结一下,分享给大家! 聚类算法主要可以分为以下几类: 1)基于划分的方法划分方法的主要思想是:给定要构建的划分数目k,在数据库中随机选择k个对象,每个对象代表一个类的平均值或中心,根据剩余的对象到类中心的距离将其划分到最近的类,然后重新计算每个类的中心,不断重复这个过程,直到所有的对象都不能再分配为止. 典型的划分方法包括:K一Means.K一Medoids.CLARA.CLARANS.FCM等 2)基于层次的方法基于层次方法的主要思想是:对给定数据对象的集合进行层次的分解.根

18大经典数据挖掘算法小结

18大经典数据挖掘算法小结本文所有涉及到的数据挖掘代码的都放在了我的github上了. 地址链接: https://github.com/linyiqun/DataMiningAlgorithm 大概花了将近2个月的时间,自己把18大数据挖掘的经典算法进行了学习并且进行了代码实现,涉及到了决策分类,聚类,链接挖掘,关联挖掘,模式挖掘等等方面.也算是对数据挖掘领域的小小入门了吧.下面就做个小小的总结,后面都是我自己相应算法的博文链接,希望能够帮助大家学习. 1.C4.5算法.C4.5算法与ID3

Paxos算法小结

转自不正直的绅士,因百度空间迁移,无法注明出处,我从其google搜索引擎中的cache进行的copy. 不正直的绅士是跟我一起工作过的非常有才的一个青年才俊. Paxos的使用非常广泛.sanlock也使用了paxos. 共研究Paxos算法的程序猿参考. Paxos算法小结 1 Paxos算法的背景1.1 State Machine Approach与一致性算法1.2 CAP理论与一致性算法2 Paxos算法2.1 Paxos算法的角色2.2 Paxos算法的描述2.3 Paxos算法的简

模型压缩相关工作

总结的很好的一篇博客:https://blog.csdn.net/App_12062011/article/details/81665140 定点化: 百度搜"模型压缩定点化" https://blog.csdn.net/u011961856/article/details/76736103 http://fjdu.github.io/machine/learning/2016/07/07/quantize-neural-networks-with-tensorflow.html ht

异常点检测算法小结

异常点检测,有时也叫离群点检测,英文一般叫做Novelty Detection或者Outlier Detection,是比较常见的一类非监督学习算法,这里就对异常点检测算法做一个总结. 一.1.?异常点检测算法使用场景什么时候我们需要异常点检测算法呢?常见的有三种情况.一是在做特征工程的时候需要对异常的数据做过滤,防止对归一化等处理的结果产生影响.二是对没有标记输出的特征数据做筛选,找出异常的数据.三是对有标记输出的特征数据做二分类时,由于某些类别的训练样本非常少,类别严重不平衡,此时也可以考

算法：HMM模型+维特比算法详解

一.HMM模型+维特比算法实例 1.问题描述假设连续观察3天的海藻湿度为(Dry,Damp,Soggy),求这三天最可能的天气情况. 2.已知信息 ①天气只有三类(Sunny,Cloudy,Rainy),海藻湿度有四类{Dry,Dryish, Damp,Soggy },而且海藻湿度和天气有一定的关系. ②隐藏的状态:Sunny, Cloudy, Rainy; ③观察状态序列:{Dry, Damp, Soggy} ④初始状态序列: Sunny Cloudy Rainy 0.63 0.17 0.2