深度学习的模型是怎么训练/优化出来的

以典型的分类问题为例,来梳理模型的训练过程。训练的过程就是问题发现的过程,一次训练是为下一步迭代做好指引。

1.数据准备

准备:

  • 数据标注前的标签体系设定要合理
  • 用于标注的数据集需要无偏、全面、尽可能均衡
  • 标注过程要审核

整理数据集

  1. 将各个标签的数据放于不同的文件夹中,并统计各个标签的数目
    如:第一列是路径,最后一列是图片数目。

    PS:可能会存在某些标签样本很少/多,记下来模型效果不好就怨它。
  2. 样本均衡,样本不会绝对均衡,差不多就行了
    如:控制最大类/最小类<\(\delta\),\(\delta=5\),最后一列为均衡的目标值。
  3. 切分样本集
    如:90%用于训练,10%留着测试,比例自己定。训练集合,对于弱势类要重采样,最后的图片列表要shuffle;测试集合就不用重采样了。
    训练中要保证样本均衡,学习到弱势类的特征,测试过程要反应真实的数据集分布。
    第一列是图片路径,后面几列是标签(多任务)。

  4. 按需要的格式生成tfrecord
    按照train.list和validation.list生成需要的格式。生成和解析tfrecord的代码要根据具体情况编写。

2.训练

  • 预处理,根据自己的喜好,编写预处理策略。
    preprocessing的方法,变换方案诸如:随机裁剪、随机变换框、添加光照饱和度、修改压缩系数、各种缩放方案、多尺度等。进而,减均值除方差或归一化到[-1,1],将float类型的Tensor送入网络。
    这一步的目的是:让网络接受的训练样本尽可能多样,不要最后出现原图没问题,改改分辨率或宽高比就跪了的情况。
  • 网络设计,基础网络的选择和Loss的设计。
    基础网络的选择和问题的复杂程度息息相关,用ResNet18可以解决的没必要用101;还有一些SE、GN等模块加上去有没有提升也可以去尝试。
    Loss的设计,一般问题的抽象就是设计Loss数据公式的过程。比如多任务中的各个任务权重配比,centorLoss可以让特征分布更紧凑,SmoothL1Loss更平滑避免梯度爆炸等。
  • 优化算法
    一般来说,只要时间足够,Adam和SGD+Momentum可以达到的效果差异不大。用框架提供的理论上最好的优化策略就是了。
  • 训练过程
    finetune网络,我习惯分两步:首先训练fc层,迭代几个epoch后保存模型;然后基于得到的模型,训练整个网络,一般迭代40-60个epoch可以得到稳定的结果。

    total_loss会一直下降的,过程中可以评测下模型在测试集上的表现。真正的loss往往包括两部分。后面total_loss的下降主要是正则项的功劳了。

3.评估模型

1.混淆矩阵必不可少
混淆矩阵可以发现哪些类是难区分的。基于混淆矩阵可以得到各类的准召,进而可以得到哪些类比较差。
如:列为真值,行为检测的值。

gt/pl 靴子 单鞋 运动 休闲 棉鞋 雪地靴 帆布 拖鞋 凉鞋 雨鞋
靴子 4524 45 39 79 12 59 5 6 0 20
单鞋 51 4088 15 44 115 9 18 80 43 6
运动 38 6 817 247 0 2 18 8 1 0
休闲 53 47 171 806 17 8 118 15 1 2
棉鞋 12 110 5 15 424 55 2 32 1 1
雪地靴 53 6 5 10 73 628 0 13 2 1
帆布鞋 5 28 16 158 1 1 515 17 3 4
拖鞋 6 139 1 12 33 3 18 2316 60 6
凉鞋 7 69 3 6 0 0 2 55 633 1
雨鞋 26 6 1 3 0 1 2 5 1 499

进而可得:

label 召回 精度
靴子 0.9446648569638756 0.947434554973822
单鞋 0.9147460281942269 0.8996478873239436
运动 0.7185576077396658 0.7614165890027959
休闲 0.6510500807754442 0.5840579710144927
... ... ...

PS:运动-休闲容易混淆。

2.抽样看测试数据
从测试数据中每类抽1000张,把它们的模型结果放在不同的文件夹下。对于分析问题还是很有效的,为什么它会分错,要拿出来看看!
有些确实是人工标错了。

3.CAM
通过CAM可以查看网络究竟学到了什么(是不是学错了)。对于细粒度问题就不用分析CAM了,一般7x7的特征图本来就很小了,根本就看不出细节学到了什么,只能粗略看看部位定位是否准确。

也可以一定程度上帮助理解为什么网络会搞错,比如下面的单鞋被误判为了拖鞋。

原文地址:https://www.cnblogs.com/houkai/p/10221709.html

时间: 2024-10-06 09:13:44

深度学习的模型是怎么训练/优化出来的的相关文章

深度学习之模型压缩

一.背景 深度学习让计算机视觉任务的性能到达了一个前所未有的高度.但,复杂模型的同时,带来了高额的存储空间.计算资源消耗,使其很难落实到各个硬件平台. 为了解决这些问题,压缩模型以最大限度地减小模型对于计算空间和时间的消耗. 二.理论基础 必要性:目前主流的网络,如VGG16,参数量1亿3千多万,占用500多MB空间,需要进行300多亿次浮点运算才能完成一次图像识别任务. 可行性:在深度卷积网络中,存在着大量冗余地节点,仅仅只有少部分(5-10%)权值参与着主要的计算,也就是说,仅仅训练小部分的

深度学习计算模型中“门函数(Gating Function)”的作用

/* 版权声明:可以任意转载,转载时请标明文章原始出处和作者信息 .*/ author: 张俊林 看深度学习文献,门函数基本上已经是你必然会遇到的一个概念了,最典型的就是LSTM,首先上来你就得过得去"遗忘门""输入门""输出门"这三个门.门函数本身是个独立概念,不过LSTM使用多个门函数来组合出一个带有状态记忆的计算模型而已.随着LSTM大行其道,各种计算模型开始在计算过程中引入门函数的概念,相信这些论文你也没少看,其实这也是一种研究模式,比如

深度学习数据集+模型说明

1.mnist Google实验室的Corinna Cortes和纽约大学柯朗研究所的Yann LeCun建的一个手写数字数据库,训练库有60,000张手写数字图像,测试库有10,000张.对应的手写识别模型为LeNet. 数据地址:http://yann.lecun.com/exdb/mnist/ 2.cifar10 由Hinton的两个大弟子Alex Krizhevsky.Ilya Sutskever收集的一个用于普适物体识别的数据集.Cifar是加拿大牵头投资的一个先进科学项目研究所. C

深度学习5-4-9模型

引用:https://yq.aliyun.com/articles/603116 5步法: 构造网络模型 编译模型 训练模型 评估模型 使用模型进行预测 4种基本元素: 网络结构:由9种基本层结构和其他层结构组成 激活函数:如relu, softmax.口诀: 最后输出用softmax,其余基本都用relu 损失函数:categorical_crossentropy多分类对数损失,binary_crossentropy对数损失,mean_squared_error平均方差损失,mean_abso

&lt;深度学习优化策略-3&gt; 深度学习网络加速器Weight Normalization_WN

前面我们学习过深度学习中用于加速网络训练.提升网络泛化能力的两种策略:Batch Normalization(Batch Normalization)和Layer Normalization(LN).今天讨论另一种与它们类似的策略:Weight Normalization(Weight Normalization).Weight Normalization是Batch Normalization的一种变体,与Batch Normalization最大不同点:对神经网络的权值向量W进行参数重写Re

深度学习在图像识别中的研究进展与展望

深度学习在图像识别中的研究进展与展望 深度学习是近十年来人工智能领域取得的最重要的突破之一.它在语音识别.自然语言处理.计算机视觉.图像与视频分析.多媒体等诸多领域都取得了巨大成功.本文将重点介绍深度学习在物体识别.物体检测.视频分析的最新研究进展,并探讨其发展趋势. 1.深度学习发展历史的回顾 现在的深度学习模型属于神经网络.神经网络的历史可以追溯到上世纪四十年代,曾经在八九十年代流行.神经网络试图通过大脑认知的机理,解决各种机器学习的问题.1986年Rumelhart.Hinton和Will

图像识别中的深度学习 转

转:http://mp.weixin.qq.com/s?__biz=MzAwNDExMTQwNQ==&mid=209152042&idx=1&sn=fa0053e66cad3d2f7b107479014d4478#rd#opennewwindow 1.深度学习发展历史 深度学习是近十年来人工智能领域取得的重要突破.它在语音识别.自然语言处理.计算机视觉.图像与视频分析.多媒体等诸多领域的应用取得了巨大成功.现有的深度学习模型属于神经网络.神经网络的起源可追溯到20世纪40年代,曾经

【王晓刚】深度学习在图像识别中的研究进展与展望

深度学习是近十年来人工智能领域取得的最重要的突破之一.它在语音识别.自然语言处理.计算机视觉.图像与视频分析.多媒体等诸多领域都取得了巨大成功.本文将重点介绍深度学习在物体识别.物体检测.视频分析的最新研究进展,并探讨其发展趋势. 1. 深度学习发展历史的回顾 现有的深度学习模型属于神经网络.神经网络的历史可追述到上世纪四十年代,曾经在八九十年代流行.神经网络试图通过模拟大脑认知的机理,解决各种机器学习的问题.1986 年Rumelhart,Hinton 和Williams 在<自然>发表了著

【深度学习Deep Learning】资料大全

转载:http://www.cnblogs.com/charlotte77/p/5485438.html 最近在学深度学习相关的东西,在网上搜集到了一些不错的资料,现在汇总一下: Free Online Books Deep Learning66 by Yoshua Bengio, Ian Goodfellow and Aaron Courville Neural Networks and Deep Learning42 by Michael Nielsen Deep Learning27 by